(tpj01) 01 – 데이터 수집

지난 주에 장난감 프로젝트의 디자인과 작업 과정을 간략하게 요약했습니다.

제가 가장 어렵다고 생각하는 두 가지 작업이 있습니다.

첫 번째는 데이터 수집입니다(정확히 “올바른” 데이터 수집).

두 번째는 웹사이트 개발입니다.

구글링하면 자료가 많은데 쓰기 힘든 자료가 많네요.

(올바른 파일 형식으로 제공되지 않는 데이터, 출처를 알 수 없는 데이터 등)

하지만!

부지런히 조사한 결과 다음 두 곳에서 유용한 자료를 수집했습니다.

1) 아름다운 교육정보 오픈포털

2) 서울열린데이터광장

더 사용하고 싶은 데이터를 찾았습니다…

파일 형식으로 제공되지 않아 크롤링을 이용해야 할 것 같습니다

이거 오래걸릴듯…

우선 처음으로 데이터를 csv 파일로 다운받았는데,

데이터 갱신이 필요한 경우 제공된 오픈 API를 통해 자동화도 가능할 것 같습니다!

총 160,000개의 레코드가 수집되었습니다.

다음으로 할 일은 데이터 정리입니다.