Apache

robots.txt를 활용하여 검색엔진 로봇 인덱싱 제한하기

Posted 2012. 07. 19 Updated 2014. 04. 23 Views 9558 Replies 0
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄

웹 페이지의 Root Directory에 다음과 같은 내용의 robots.txt 파일을 작성해두면, 검색엔진의 로봇들에 의해 불필요한 트래픽이 발생하는 현상을 막을 수 있습니다.

User-agent: *
Disallow: /

몰론, robots.txt에 명시된 사항을 따를 지 여부는 검색엔진 로봇이 결정하므로 이렇게 써 놓는다고 해서 100% 인덱싱이 제한된다고는 할 수는 없습니다.

대형 검색엔진에서는 대부분 이 사항을 잘 지킨다고 하므로(믿거나 말거나?) 이 방법을 활용하면 어느 정도 트래픽을 줄이는 효과를 볼 수 있습니다.


이렇게 해서 다 막아놓으면 검색엔진에서 인덱싱이 되지 않아 상위 결과에 뜨는 경우가 드물게 되므로 사이트 성격에 따라서 적절히 사용하는 것이 좋습니다.

위 방법은 사이트 전체에 대한 인덱싱을 제한하는 방법이고, 다음과 같이 세부 경로를 지정하여 선택적으로 차단할 수도 있습니다.

User-agent: *
Disallow: /do_not_indexing_here/
Disallow: /my_secret_directory/

이렇게 하면 루트 디렉토리 아래의 do_not_indexing_here 및 my_secret_directory 디렉토리는 인덱싱을 하지 않습니다.


다시 한 번 강조하지만, robots.txt에 기재된 내용은 검색엔진 수집로봇이 자율적으로 판단할 수 있기 때문에 강제사항은 아니라는 점을 명심해야 합니다. 일부 검색엔진에서는 여기에 설정된 정책을 무시하고 인덱싱을 하고 있을 수도 있습니다.

접근을 통제해야 할 문제가 있는 보안과 관련된 사안이라면, Permission이나 Apache의 사이트 설정파일을 통해서 해야만 합니다.