파이썬/크롤링

[python-파이썬] 17 네이버웹툰 순위정보 크롤링 (crawling)

모두의 실험실 2022. 4. 23. 11:26
728x90

안녕하세요. 모두의 파이썬입니다. 나혼자 산다에 메인 호스트 기안84아시나요? 기안84가 웹툰작가입니다. 즐겨보지 않더라도 웹툰작가들이 매스컴에도 자주 나오기 시작하면서, 웹툰의 대중화가 확산되고 있습니다 그래서 웹툰 정보를 크롤링 해보겠습니다. 

 

전체 글을 요약하면, 네이버웹툰 사이트에서 요일별 웹툰정보와 선위정보를 크롤링한다.

 

항상 시작은 구글링입니다. '네이버웹툰'을 구글링하여 네이버웹툰으로 접속합니다. 기본이 요일전체 웹툰 인기순위로 페이지를 보여줍니다. 예외의 경우도 발생할 수 있기때문에 '네이버웹툰> 웹툰> 요일전체' 으로 접속을 해봅니다. 네이버웹툰 사이트 https://comic.naver.com/webtoon/weekday?order=User로 접속합니다. '인기순' '업데이트순' '조회' '별점순'에 따라서 주소가 바뀝니다. '인기순'으로 실습을 하겠습니다 크롤링의 시작은 개발자모드(F12 또는 우클릭> 검사)로 접속입니다. 접속완료후 'tag'속성을 확인합니다. 범위가 큰 영역에서 부터 작은영역(반복된 영역)으로 접근하면 속성을 찾기가 쉽습니다. 요일별 전체 웹툰정보가 포함된 속성은 find('div',{'class','list_area'})입니다. 그 다음 각 요일 속성은 find_all('div',{'class','col'})입니다. 그리고 하루에 포함된 전체 웹툰리스트 정보가 포함된 속성은 find_all('li') 입니다. 그리고 각 웹툰의 타이틀 속성은 find('a',{'class','title'})입니다. 

 

ⓒ네이버웹툰 차트, 출처 네이버웹툰

 

print('모두의 파이썬')

※좋아요/댓글은 서로를 응원합니다!

728x90
반응형