네이버 무한 크롤링 기술에 대해서 설명드립니다 > 자유게시판

본문 바로가기
사이트 내 전체검색

자유게시판

네이버 무한 크롤링 기술에 대해서 설명드립니다

페이지 정보

profile_image
작성자 전유진팬
댓글 0건 조회 495회 작성일 24-08-30 17:43

본문


아래 크롤링에 대한 글을 보고 저도 수년간 네이버쪽을 크롤링 하면서 쌓아왔던 

`네이버`만을 위한 크롤링 방법에 대해 적어볼까 합니다.

 


제가 만든 크롤링 프로그램들은 vpn, proxy는 사용하지 않습니다.


`ip를 자주 바꾸면 덜~ 차단당한다`라는 공식은 네이버에겐 무의미합니다.


 


동일 ip를 사용하는 공용 공간에서 네이버 서비스를 많은 사람들이 동시에 사용을 할텐데


그럴때마다 서비스가 차단이 되면 누가 네이버 쓰겠습니까 


그래서 네이버는 동일 ip에 대한 차단에 대해서는 어느 정도 관대하다라고 보시면 될 것 같구요.


 


그럼 어떤 기준에서 차단이 되는거야 라고 물으시면 이건 네이버의 서비스 마다 


차단의 기준이 다르다 라고 말씀드리고 그 기준이 수시로 바뀝니다. 


 


그래서 크롤링을 하더라도 `난 계속 크롤링을 해오던 x가 아니야` 라고 크롤링 중간 중간에 


모습을 바꿔주셔야 됩니다.


 


네이버 크롤링 방법 설명 들어갑니다!


 


1. 헤더정보에 userAgent 간헐적 변경


2. cookie정보는 비정기적으로 삭제해서 비워주기 <- 아주 중요


3. 서비스의 메인 페이지(네이버 홈, 네이버 부동산 홈, 네이버 쇼핑 홈) 접속 후 크롤링 페이지로 접근해서 크롤링 (신규 쿠키 취득)


4. referer는 그렇게 많이 중요하지 않다. 없는 것 보단 나음.


5. 헤더 정보에  bearerToken이 필요한 경우 취득 후 크롤링 페이지에 접근한다.


6. 수집 할 정보는 가급적 모바일 웹페이지에서 가져온다.


7. 보안 프로토콜 Tls1.2는 구버전이므로 수집이 안 될경우 Tls1.3으로 프로그램 변경 후 크롤링


 


5,7번은 기술적인 이해도가 많이 필요하겠네요. 


1,2,3은 한 세트라고 보시면 됩니다. 크롤링 100번 하고 1,2,3 세트 한 번돌려주시면 됩니다. 






말씀드린걸 다 이해하시고 구현이 가능하시면 크몽에서 한 달에 월 500 가능합니다! ㅎ


여러분들도 한 번 해보세요~ 화이팅입니다


 


 


 


 


 


댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : CODE404 / 대표 : 이승원
주소 : 경기도 의정부시 의정부동 138-30, 9층
사업자 등록번호 : 456-03-01654
통신판매업신고번호 : 제2020의정부호원0046호
개인정보관리책임자 : 이지혜

공지사항

  • 게시물이 없습니다.

접속자집계

오늘
3,166
어제
3,119
최대
3,702
전체
1,032,745
Copyright © PONONG All rights reserved.