- 질문 게시판입니다.
Date 18/02/12 21:39:55
Name   호라타래
File #1   크롤링_코드_1.PNG (71.6 KB), Download : 26
File #2   크롤링_코드_2.PNG (80.8 KB), Download : 22
Subject   웹사이트 분석 / 크롤링 관련 질문 있습니닷




http://www.genie.co.kr/detail/songInfo?xgnm=87759645

파이썬을 이용해서 노래 관련된 정보들을 크롤링/분석하려고 해요.

이미지에 나와있듯이

for문을 이용해서 8~9천만개 정도 존재하는 songInfo 페이지를 하나씩 긁어들이게 만들었는데, 이 중 상당수는 빈페이지입니다.

지금과 같은 코드는 시간도 오래 걸리고, 비효율적이라 개선 방안을 고민하는 중이에요.

1) 셀레니움을 이용하지 않아도 Alert 창을 컨트롤 할 수 있나요?

http://www.genie.co.kr/detail/songInfo?xgnm=1

페이지를 눌러보면 보이듯이 Alert창이 뜨기 때문에, 셀레니움을 이용해서 컨트롤을 해주고 있어요. 근데 속도가 상당히 느리더라고요. BeautifulSoup만 써서 정적 스크래핑을 하면 속도가 개선될 듯한데, Alert를 처리할 수 있는 방법이 있을까요? Ajax인지 아닌지도 모르겠네요 ㅋㅋㅋㅋㅋㅋ

2) 지금 코드를 효율화 할 수 있는 방법이 있을까요?

향후 전처리를 염두에 두고 코드를 짜기는 했는데, 이게 효율적인지 아닌지도 감이 안 잡히네요.

3) 구글 크롬 개발자 도구 외에 사이트 구조를 분석할 수 있는 방법이 있을까요?

비어있지 않은 songInfo 페이지를 사전에 파악한 후, 인덱스를 부여해서 for문을 돌리면 훨씬 효율적이지 않을까 싶은데, 구글 크롬 개발자 도구로는 파악을 못하겠습니당

조언 부탁드립니다ㅠㅠ 영어 사이트여도 활용 가능하니 힌트/키워드라도 얻을 수 있다면 흑흑...

맞다. 제 작업 환경은 램 4G, CPU 2.93Ghz, winddow7, Anaconda3(32bit) - Jupyter notebook - Python 3.6입니다. 설날 전까지는 이 환경에서 작업을 해야 해요. 코드 정리되고 나면 프롬프트 창에서 파이썬을 돌리려고요 8ㅅ8



0


목록
번호 제목 이름 날짜 조회 추천
7883 기타웹툰 제목 질문 4 [익명] 19/09/17 3343 0
10722 IT/컴퓨터웹캠을 샀는데 왜 쓰지를 못하니... 4 Darwin4078 20/12/27 5343 0
809 IT/컴퓨터웹에디터 영단어 '-(하이픈)' 처리 관련 2 얼그레이 16/02/05 5496 0
1083 IT/컴퓨터웹에 접속한 유저의 OS정보 받아오기? 6 doomvas 16/05/17 3779 0
6333 문화/예술웹소설 써보고 싶은데 방법을 모르겠습니다. 19 덕후나이트 19/01/18 3412 0
3695 기타웹사이트에서 자체적으로 광고를 거는 사이트가 궁금합니다. 6 Groenland 17/11/16 4384 0
3912 IT/컴퓨터웹사이트 프로젝트를 하나 만들어야 합니다 6 二ッキョウ니쿄 17/12/28 5954 0
3048 IT/컴퓨터웹사이트 제작 서비스 사용해보신 분? 4 April_fool 17/07/14 3834 0
12443 IT/컴퓨터웹사이트 이미지 다운로드 4 OshiN 21/10/21 4631 0
4154 IT/컴퓨터웹사이트 분석 / 크롤링 관련 질문 있습니닷 22 호라타래 18/02/12 7914 0
1568 IT/컴퓨터웹사이트 관리 초보자도 가능할까요? 9 진저에일 16/09/27 3871 0
16622 IT/컴퓨터웹브라우저 추천해 주세요. 19 어제내린비 25/03/21 1793 0
464 진로웹개발자 취업문의좀 드리고 싶습니다 4 Ssuk 15/11/13 4676 0
3605 IT/컴퓨터웹/모바일 기획 문서 작성에 유용한 툴이 있을까요? 6 기쁨평안 17/11/01 4609 0
4023 IT/컴퓨터웹/java 개발자 혹은 관련 분들께 질문.. 6 nickyoPD 18/01/18 5487 0
1709 IT/컴퓨터웹 페이지에 어떻게 음악 삽입하나요? 7 tannenbaum 16/10/31 3377 0
10232 IT/컴퓨터웹 차트를 만들고 싶읍니다. 7 OshiN 20/10/08 5190 0
2261 게임웹 게임 이름이 기억이 안납니다. 3 Toby 17/02/05 5056 0
13136 IT/컴퓨터웹 개발자 분들 이거 뭔지 좀 봐주세요! 6 아재 22/03/19 5925 0
10413 IT/컴퓨터웹 개발 입문 4 아침커피 20/11/08 4897 0
1715 기타웰론이나 신슐레이트 충전재 패딩 입을만한가요? 4 설현 16/11/01 10637 0
7948 체육/스포츠웨이트를 시작해보려고 합니다 5 천안무쇠다리 19/09/29 4236 0
14931 체육/스포츠웨이트 하면 체중이 늘어나나요? 4 OneV 23/06/15 4622 0
7860 체육/스포츠웨이트 입문 어떻게 해야할까요? 16 천안무쇠다리 19/09/15 5281 0
4423 체육/스포츠웨이트 3분할 계획 좀 봐주세요. 11 선비 18/04/07 7050 1
목록

+ : 최근 2시간내에 달린 댓글
+ : 최근 4시간내에 달린 댓글

댓글