[Python] 파이썬을 이용한 크롤링
- WebProgramming
- 2019. 2. 18.
크롤링[crawling] : 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요서로서 최근 웹 검색의 중요성에 따라 발전되고 있다. 웹 크롤링 : 웹 크롤링은 콘텐츠를 수집하기 위해 자동으로 웹사이트를 방문하는 프로세스다. 웹 크롤러 : 자동으로 웹 페이지를 방문해 콘텐츠를 가져오고 URL을 추출해 낸다. 웹 크롤러의 다른 이름은 웹 스파이더, 봇 또는 자동화 색인기 이다. #홈페이지 전체를 긁어오기 import urllib2 url="http://news.naver.com/" temp=urllib2.urlopen(url) f=open("news.txt","w") f.write(temp.read()) f.close() temp.close() ----------------------------------------------따로입니다-------------------------------------- #내가 원하는 부분만 긁어서 보기 f=open("news.txt",'r') text=f.read() temp=text[text.find("<div class=\"lnb_today\">"):text.find("<ul class=\"lnb_side\" tabindex=\"0\">")].split("<li>") f.close() #print temp for i in temp: print i[i.find("title"):i.find("</a>")]
홈페이지 전체를 긁어오기
전체중 내가 원하는 부분만 긁어오기
해당 경로에 html태그들이 txt파일로 생성된 것을 확인 할 수 있다 html로 해주면 바로 페이지를 열어 볼 수 있다
이런식으로 지정한 타이틀만 쭉쭉 뽑아오게 된다 파일은 읽기형식으로 열어줬기 때문에 변화없고 출력만 나오게 됩니다
[Python] 파이썬을 이용한 크롤링
드래그용 코드
가독성을 높이기 위한 코드
실행 화면
코드 설명