[Server] robots.txt 이해하기

728x90

로봇 배제 표준 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근

ko.wikipedia.org

developers.google.com/search/docs/advanced/robots/intro?hl=ko

Introduction to robots.txt | Google 검색 센터 | Google Developers

robots.txt 파일이란 무엇인가요? robots.txt 파일은 검색엔진 크롤러에서 사이트에 요청할 수 있거나 요청할 수 없는 페이지 또는 파일을 크롤러에 지시하는 파일입니다. 이 파일은 요청으로 인해 사

developers.google.com

"Robots.txt"는 이 문서를 가리킵니다. 위키백과의 Robots.txt의 파일을 보실려면, 미디어위키:Robots.txt 와 ko.wikipedia.org/robots.txt를 참조하시길 바랍니다.

로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.

이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.

이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다.

만약 모든 로봇에게 문서 접근을 허락하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Allow: /

모든 로봇을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Disallow: /

모든 로봇에 세 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

모든 로봇에 특정 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Disallow: /directory/file.html

BadBot 로봇에 모든 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: BadBot
Disallow: /

BadBot 과 Googlebot 로봇에 특정 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: BadBot
User-agent: Googlebot
Disallow: /private/

다양하게 조합하여 사용할 수 있다.

User-agent: googlebot        # googlebot 로봇만 적용
Disallow: /private/          # 이 디렉토리를 접근 차단한다.

User-agent: googlebot-news   # googlebot-news 로봇만 적용
Disallow: /                  # 모든 디렉토리를 접근 차단한다.

User-agent: *                # 모든 로봇 적용
Disallow: /something/        # 이 디렉토리를 접근 차단한다.

728x90

저작자표시 비영리

순수한소년

[Server] robots.txt 이해하기

티스토리툴바

[Server] robots.txt 이해하기

관련글

티스토리툴바