YesYo.com MintState Forums  
뒤로    YesYo.com MintState BBS > Tech > Linux
검색
멤버이름  오토
비밀번호 
 

 
작성일 : 13-10-11 21:05
Robot.txt 봇 접근 제한하기
 글쓴이 : MintState
조회 : 4,059  
robot.txt
 
로봇이 kensei.co.kr/ 에 방문하면 먼저 kensei.co.kr/robots.txt 파일 호출함
로봇의 접근 권한 및 접근가능한 경로에 대한 정보를 분석하여 자신이 수집해도 되는 콘텐트만을 수집한다
웹 사이트의 최상위 루트에 robots.txt 파일이 있어야함
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 함

robot.txt 파일이름은 소문자로 작성 (공백 허용되지 않음)

ex)

홈페이지 전체가 모든 검색엔진에 노출되기를 원치 않음
User-agent: *
Disallow: /

홈페이지 전체가 모든 검색엔진에 노출되기를 원함
User-agent: *
Disallow:

홈페이지 디렉토리중 일부만 검색엔진에 노출하고 싶음
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/

홈페이지 전체를 노출시키지만 특정 검색엔진 (EvilRobot)만 거부
User-agent: EvilRobot
Disallow: /

홈페이지 전체가 노출되지만 특정검색엔진에서만 노출되기를 원함
User-agent: NaverBot
Disallow:
User-agent: *
Disallow: /

/help.html과 /help/index.html 둘 다 허용 안함
disallow: /help

/help/index.html는 허용 안하나, /help.html은 허용 됨.
disallow: /help/

루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부
Disallow: /*.xml$

루트에 test.html 과 ?가 포함된 파일의 색인을 거부한다
Disallow: /test.html?

User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.jpg$ 위 문장은 구글의 이미지를 검색하는 로봇에게 gif와 jpg로 된 이미지를 모두 검색하지 않도록 하는 명령어입니다.

HTML (HEAD) 와 (/HEAD) 사이에 (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")
라는 메타태크그를 추가함으로써 문서 하나하나에 대해 정확하게 명시를 해주므로 가장 확실하게 로봇 접근을 차단할수 있음

검색엔진에 Robot를 차단하더라도 자신의 페이지중 일부가 나타날수 있음
기타 문서나 사이트들이 자신의 웹 문서를 링크할 경우 자동적으로 생성되어 나타날수 있음
이 경우 Robot 과 무관함 (robots.txt를 무시하는 로봇들도 있을수 있음)
Robot 들의 IP들을 알 경우 IP를 통해 정책수립해도 상관없음

주석문을 작성하기 위해서는 앞에 #를 적어주시면 됩니다.
로봇의 이름은 개별 검색사이트를 방문해야함

구글: Googlebot
구글 이미지 : googlebot-image
네이버 : cowbot
네이버 : User-Agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
야후 : Slurp
야후 이미지 : Yahoo-MMCrawler
엠파스봇 : empas
MSN : MSNBot
첫눈: 1Noonbot 1.0
다음 : daumoa


 
실제 Apache Log
 
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /robots.txt HTTP/1.1" 404 -
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /152 HTTP/1.1" 200 54216
 
61.247.221.84 로봇이 접근해서 robot.txt 파일을 읽었는데 404에러 robot.txt 파일이 없다.???
없으니깐 /152번 글을 GET 해가지고 갔다? 200 정상 메세지니깐??
 
IP 기반으로 차단하기 위해서는 해당 봇들에 대한 아이피 정보들을 가지고 있어야 함
아래 사이트 접근하면 각종 봇들에 대한 아이피 대역 리스트를 받아 볼수 있음...
100% 신뢰할만할까?
 
http://iplists.com/
 
END
Rated 0/5 (0%) (0 Votes)

(\__/)
(='.'=)
(")_(")~
Search Infomation by MintState
MintState

 
 

Total 358
번호 제   목 글쓴이 날짜 조회
공지 리눅스 Pds & 문서 Url MintState 10-30 66137
358 vi, vim 에디터 단축키 MintState 10-16 35
357 vi에서 UTF로 인코딩 MintState 11-03 2416
356 [쉘스크립트]프로세스 감시 죽은 프로세스 자동 살리기 MintState 08-10 2624
355 [mysql] binary log 관리 MintState 05-21 2625
354 [RewriteRule] URL에서 .html 삭제하기 MintState 01-14 2747
353 아파치 동시접속자수 확인 MintState 09-09 3052
352 batch ftp from windows to linux using shell scripting MintState 11-28 3567
351 Robot.txt 봇 접근 제한하기 MintState 10-11 4060
350 mod_deflate 사용하여 웹페이지 압축 전송 MintState 09-30 3816
349 How Do I Secure Grub Boot Loader? MintState 08-23 3880
348 리눅스 버전 및 CPU등 환경정보 확인 MintState 05-14 4250
347 $LANG 설정 MintState 05-29 5271
346 CBL 스펨메일 문제 해결(localhost.localdomain) (1) MintState 08-03 8881
345 유용한 find 명령어 예 모음 MintState 07-27 6479
344 sudo 사용 MintState 07-26 7408
343 리눅스 (Linux) 파일이나 링크, 디렉토리 갯수 확인 명령 MintState 03-30 10050
342 MySQL 튜닝 - 컨넥션과 메모리 MintState 03-07 8456
341 Windows에서 Linux 파일(파티션) 읽기 MintState 02-14 8834
340 메모리 캐쉬 삭제 MintState 01-28 9468
339 shell 스크립트 정리 MintState 01-12 8366
 1  2  3  4  5  6  7  8  9  10    
모바일 버전으로 보기
CopyRight ©2004 - 2017, YesYo.com MintState. ™