본문 바로가기
IT/해킹보안

구글 검색 대응 방안(how to avoid the google seraching robot)

by 모르면 모른다고 해 2013. 4. 24.
반응형

이번 장에서는 구글의 고급연산자 검색에서 노출 위험이 있는 개인정보나 중요 페이지 노출 대응 방안을 설명하고자 한다.

구글은 단순한 검색 뿐만아니라, 고급 연산자 검색을 통하여 pdf,word. jpg 등의 확장자 검색은 물론이고 URL, Protocol 까지의 검색도 가능하다.  ☞전산쟁이 소소한 블로그 자료 참조

이러한 검색 로봇으로부터 웹사이트 전부나 특정 부분 접근을 제한하는 방법에 아래 2가지 방법을 알아보자.

1. robots.txt

'robots.txt'는 'robots'txt 프로토콜' 이나 '로봇 제외 표준'이라고 부르는데, 웹 스파이더나 검색 로봇(웹 로봇)으로부터 웹 사이트 전부나 특정 부분 접근을 제한한다.

   HOW?

'robots'txt'가 효력을 가지려면 URL의 최상위 공간에 위치해야 한다.
예) 상위주소 및 상위 디렉토리 
     www.tistory.com/robots.txt 

만약 관리하는 웹 사이트에 모든 접근을 허용할 경우에는 간단히 'robots.txt'에 아무 것도 쓰지 않으면 된다. 아래 'robots.txt' 의 내부 기능을 살펴보자.

  • User-agent : 수집하는 주체의 범위를 정한다. * 으로 설정할 경우 모든 로봇의 접근이 차단된다.
    'User-agent: *' 와 같은 형태로 사용된다.
  • Allow : 허용할 디렉토리를 설정한다.
  • Disallow : 검색을 허용하지 않을 홈페이지 디렉토리를 설정한다.
    Disallow : 뒤에 공란일 경우에도 모든 접근을 허락하는 것이다.

예를 들어, 아래를 설명하면
----------------------------------------------------------------------------
User-agent : *
Disallow : /image/  ☞이미지 폴더 검색 금지로 설정한 경우이다
----------------------------------------------------------------------------

2. 로봇 배제 표준 대안

가) HTML의 meta 태그를 이용하는 방법.
     html 문서의 <head> 와 </head>사이에 입력한다.
--------------------------------------------------
.
..<head> 
<meta name = "Robots" content="Noindex, Nofollow">
..</head>
-------------------------------------------------- 
※ 위 방법은 일부 검색 로봇에만 지원 가능하다.

3. Reference

1. 크래커 잡는 명탕점 해커 |A3Security| 성안당

2. 홈페이지 개인 정보노출 방지가이드 ☞ 

홈페이지개인정보노출방지가이드라인(Ver_4.0)-행안부.pdf
다운로드

3. 구글검색을 이용해 해킹 및 방어 - 심정재 - ☞

googledork.pdf
다운로드

 

반응형

댓글