YesYo.com MintState Forums
뒤로    YesYo.com MintState BBS > Tech > Linux
검색
멤버이름    오토
비밀번호 
 

Robot.txt 봇 접근 제한하기

페이지 정보

작성자 MintState 댓글 0건 조회 12,949회 작성일 13-10-11 21:05

본문

robot.txt
 
로봇이 kensei.co.kr/ 에 방문하면 먼저 kensei.co.kr/robots.txt 파일 호출함
로봇의 접근 권한 및 접근가능한 경로에 대한 정보를 분석하여 자신이 수집해도 되는 콘텐트만을 수집한다
웹 사이트의 최상위 루트에 robots.txt 파일이 있어야함
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 함

robot.txt 파일이름은 소문자로 작성 (공백 허용되지 않음)

ex)

홈페이지 전체가 모든 검색엔진에 노출되기를 원치 않음
User-agent: *
Disallow: /

홈페이지 전체가 모든 검색엔진에 노출되기를 원함
User-agent: *
Disallow:

홈페이지 디렉토리중 일부만 검색엔진에 노출하고 싶음
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/

홈페이지 전체를 노출시키지만 특정 검색엔진 (EvilRobot)만 거부
User-agent: EvilRobot
Disallow: /

홈페이지 전체가 노출되지만 특정검색엔진에서만 노출되기를 원함
User-agent: NaverBot
Disallow:
User-agent: *
Disallow: /

/help.html과 /help/index.html 둘 다 허용 안함
disallow: /help

/help/index.html는 허용 안하나, /help.html은 허용 됨.
disallow: /help/

루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부
Disallow: /*.xml$

루트에 test.html 과 ?가 포함된 파일의 색인을 거부한다
Disallow: /test.html?

User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.jpg$ 위 문장은 구글의 이미지를 검색하는 로봇에게 gif와 jpg로 된 이미지를 모두 검색하지 않도록 하는 명령어입니다.

HTML (HEAD) 와 (/HEAD) 사이에 (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")
라는 메타태크그를 추가함으로써 문서 하나하나에 대해 정확하게 명시를 해주므로 가장 확실하게 로봇 접근을 차단할수 있음

검색엔진에 Robot를 차단하더라도 자신의 페이지중 일부가 나타날수 있음
기타 문서나 사이트들이 자신의 웹 문서를 링크할 경우 자동적으로 생성되어 나타날수 있음
이 경우 Robot 과 무관함 (robots.txt를 무시하는 로봇들도 있을수 있음)
Robot 들의 IP들을 알 경우 IP를 통해 정책수립해도 상관없음

주석문을 작성하기 위해서는 앞에 #를 적어주시면 됩니다.
로봇의 이름은 개별 검색사이트를 방문해야함

구글: Googlebot
구글 이미지 : googlebot-image
네이버 : cowbot
네이버 : User-Agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
야후 : Slurp
야후 이미지 : Yahoo-MMCrawler
엠파스봇 : empas
MSN : MSNBot
첫눈: 1Noonbot 1.0
다음 : daumoa


 
실제 Apache Log
 
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /robots.txt HTTP/1.1" 404 -
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /152 HTTP/1.1" 200 54216
 
61.247.221.84 로봇이 접근해서 robot.txt 파일을 읽었는데 404에러 robot.txt 파일이 없다.???
없으니깐 /152번 글을 GET 해가지고 갔다? 200 정상 메세지니깐??
 
IP 기반으로 차단하기 위해서는 해당 봇들에 대한 아이피 정보들을 가지고 있어야 함
아래 사이트 접근하면 각종 봇들에 대한 아이피 대역 리스트를 받아 볼수 있음...
100% 신뢰할만할까?
 
http://iplists.com/
 
END

댓글목록

등록된 댓글이 없습니다.

Total 360건 1 페이지
Linux 목록
번호 제목 글쓴이 조회 날짜
공지 MintState 110293 10-30
359 MintState 3910 06-05
358 MintState 5652 07-30
357 MintState 7781 10-16
356 MintState 9679 11-03
355 MintState 13821 08-10
354 MintState 10333 05-21
353 MintState 10828 01-14
352 MintState 11158 09-09
351 MintState 10880 11-28
열람중 MintState 12950 10-11
349 MintState 11634 09-30
348 MintState 11635 08-23
347 MintState 12280 05-14
346 MintState 19712 05-29
345 MintState 20049 08-03
344 MintState 22059 07-27
343 MintState 23937 07-26
342 MintState 19055 03-30
341 MintState 19923 03-07
게시물 검색
모바일 버전으로 보기
CopyRight ©2004 - 2024, YesYo.com MintState. ™