웹 페이지의 Root Directory에 다음과 같은 내용의 robots.txt 파일을 작성해두면, 검색엔진의 로봇들에 의해 불필요한 트래픽이 발생하는 현상을 막을 수 있습니다.
User-agent: * Disallow: /
몰론, robots.txt에 명시된 사항을 따를 지 여부는 검색엔진 로봇이 결정하므로 이렇게 써 놓는다고 해서 100% 인덱싱이 제한된다고는 할 수는 없습니다.
대형 검색엔진에서는 대부분 이 사항을 잘 지킨다고 하므로(믿거나 말거나?) 이 방법을 활용하면 어느 정도 트래픽을 줄이는 효과를 볼 수 있습니다.
이렇게 해서 다 막아놓으면 검색엔진에서 인덱싱이 되지 않아 상위 결과에 뜨는 경우가 드물게 되므로 사이트 성격에 따라서 적절히 사용하는 것이 좋습니다.
위 방법은 사이트 전체에 대한 인덱싱을 제한하는 방법이고, 다음과 같이 세부 경로를 지정하여 선택적으로 차단할 수도 있습니다.
User-agent: * Disallow: /do_not_indexing_here/ Disallow: /my_secret_directory/
이렇게 하면 루트 디렉토리 아래의 do_not_indexing_here 및 my_secret_directory 디렉토리는 인덱싱을 하지 않습니다.
다시 한 번 강조하지만, robots.txt에 기재된 내용은 검색엔진 수집로봇이 자율적으로 판단할 수 있기 때문에 강제사항은 아니라는 점을 명심해야 합니다. 일부 검색엔진에서는 여기에 설정된 정책을 무시하고 인덱싱을 하고 있을 수도 있습니다.
접근을 통제해야 할 문제가 있는 보안과 관련된 사안이라면, Permission이나 Apache의 사이트 설정파일을 통해서 해야만 합니다.