본문 바로가기

Toy Project/Web Crawling

(3)
[Web Crawling] 전국 대학교 이름 크롤링 하여 DB에 저장하기 -2 전국 대학교 이름을 크롤링 하여 DB에 저장하기 -2 목차 Library 선언 Database와 연결 Cursor 생성 파이썬에서 Query 실행 입력된 데이터를 확인 DB 연결 종료 전체 소스 코드 소개 1. Library 선언 MySQL Library 선언 MySQL과 연동하기 위해 파이썬 모듈중에 하나인 MySQLdb 모듈을 선언하여 준다. import MySQLdb 2. Database와 연결 Database Connect 모듈과 Database를 연결시켜 주기 위해, 파이썬의 MySQLdb 객체를 통해 MySQL과 연결시켜준다. 이 때 각 Parameter는 MySQL을 연결 할 때와 동일한 Parameter 이다. conn = MySQLdb.connect( user="userName", pas..
[Web Crawling] 전국 대학교 이름 크롤링 하여 DB에 저장하기 -1 전국 대학교 이름을 크롤링 하여 DB에 저장하기 -1 개요 Toy Project에서 사용하기 위해 전국의 대학교를 미리 저장하여 DB에 정리하고, 이를 회원가입시에 저장된 DB를 미리 노출 시켜 통일된 양식으로 소속 학교를 받을 수 있도록 나무위키의 전국 대학교가 나와있는 html 페이지를 크롤링 하여 DB에 저장하여본다. 목차 해당하는 페이지의 Robots.txt html page의 tag 목록 파이썬 크롤링 코드 소개 1. 해당하는 페이지의 Robots.txt 나무위키의 Robots.txt 확인하기 나무위키의 대학교가 나와 있는 페이지를 크롤링하기 위해 먼저 나무위키의 robots.txt를 확인해 주어야 한다. 조회하려는 url은 아래와 같다. 이 때 나무위키의 robots.txt는 /w 경로를 Al..
[Web Crawling] 웹 크롤링(Web Crawling)이란? 웹 크롤링(Web Crawling)이란? 개요 웹 크롤링(Web Crawling)에 대해 이해하고, 크롤링시 지켜야 할 주의사항에 대하여 알아본다. 목차 웹 크롤러(Web Crawler) robots.txt 웹 크롤링(Web Crawling) 소개 1. 웹 크롤러(Web Crawler) A. 웹 크롤러(Web Crawler)란? SEED URL에서 시작하여 관련된 URL을 찾아 내고, 그 URL들에서 또 다른 하이퍼 링크를 계속 하여 찾아내는 과정을 반복하며 하이퍼 링크들을 다운로드하는 프로그램이다. B. 웹 크롤러(Web Crawler)의 구조 Frontier: 2개의 자료구조(탐색했던 URL과, 탐색해야 할 URL)를 바탕으로 탐색할 URL에 하나 이상의 Seed URL을 Fetcher 에게 넘겨준다..