본문 바로가기

파이썬 웹크롤링3

[Python] beautifulsoup select 사용법 - 네이버 랭킹 뉴스 크롤링 파이썬 beautifulsoup select 사용법에 대해서 알아보겠다. 여러 번 사용해봐야 개념을 알 수 있고, 직접 코드를 작성하는 것이 최고라고 생각한다. beautifulsoup을 이용해 웹 스크래핑을 할 때 중요한 것은 내가 원하는 정보를 잘 정제해서 가져오는 것이다. 그냥 무턱대고 모든 HTML 코드를 가져오면, 해석하기도 힘들고, 큰 의미가 없다. 파이썬(Python) beautifulsoup에서는 select를 이용해 내가 원하는 정보를 손쉽게 가져올 수 있다. 이번 시간 select를 사용해 네이버 랭킹 뉴스 크롤링(사실 웹 스크래핑이 맞는 말이라고 한다.)을 해보겠다. ★ 목표 : 네이버 뉴스 - 언론사 별 랭킹 뉴스 제목 가져오기! 참고 : 언론사별 랭킹 뉴스는 일정시간이 지나면 새로.. 2021. 8. 12.
[Python] 쿠팡 크롤링 - 상품 제목 가져오기 이번 시간 파이썬(Python)을 이용해 웹크롤링 해볼 사이트는 바로 '쿠팡(coupang)'사이트이다. 요즘 다양한 SNS를 통해 쿠팡파트너스 홍보를 하는 사람들이 많아졌다. 유튜브에 검색을 해보더라도 쿠팡파트너스와 관련된 영상이 참으로 많이 나온다. '쿠팡 홈페이지 - 로켓배송'을 눌렀을 때 나오는 상품제목(상품명)을 가져오려고 한다. import requests from bs4 import BeautifulSoup import re URL = 'https://www.coupang.com/np/campaigns/82' headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck.. 2021. 6. 22.
네이버블로그 상위 랭크 10등까지 제목과 링크 가져오기 - 파이썬 웹크롤링 네이버에 특정 키워드를 검색한 후 상위 랭크 10등에 있는 블로그의 정보(제목, 링크)를 가져오는 코드를 파이썬을 통해 작성해봤습니다. 목표 : 특정 키워드 검색 시 뷰탭에서 1위부터 10위 블로그들의 제목과 링크 가져오기 결과 : [블로그 제목], [링크] '공인중개사'라는 키워드를 검색했을 경우, 다양한 블로그가 등장합니다. 상위 노출 블로그를 분석하려고 하는 분들에게 유용하지 않을까 라는 생각으로 작성을 해봤는데요. 파이썬으로 작성한 웹크롤링 코드부터 보여드리겠습니다. HTML의 정보를 뽑아내기 위해 'BeautifulSoup'이라는 파이썬 라이브러리를 사용했습니다. import requests import re from bs4 import BeautifulSoup #키워드 : 공인중개사 url =.. 2021. 5. 6.