본문 바로가기

WeChall

[WeChall]Training: WWW-Robots

WeChall Training: WWW-Robots 해봅니다.

 

 

이번에는 텍스트를 입력할 수 있는 칸이 없네요.

 

 

In this little training challenge, you are going to learn about the Robot_exclusion_standard.
The robots.txt file is used by web crawlers to check if they are allowed to crawl and index your website or only parts of it.
Sometimes these files reveal the directory structure instead protecting the content from being crawled.

 

이 작은 교육 과제에서 Robot_exclusion_standard에 대해 배우게 됩니다.
robots.txt 파일은 웹 크롤러가 웹 사이트 또는 그 일부만 크롤링하고 인덱싱할 수 있는지 확인하는 데 사용됩니다.
경우에 따라 이러한 파일은 콘텐츠가 크롤링되지 않도록 보호하는 대신 디렉터리 구조를 드러냅니다.

 

 

 

robots.txt 파일을 봐야할 것 같습니다.

Robot_exclusion_standard 가 버튼 활성화 되어있기 때문에 클릭해봅니다.

 

클릭하니 위키피디아에 저장된 robots.txt 를 볼 수 있습니다.

 

  • robots.txt는 웹 사이트에서 사용하는 표준인 로봇 배제 프로토콜을 구현하는데 사용되는 파일 이름입니다.
  • 웹사이트의 또 다른 로봇 표준인 사이트맵과 함께 사용할 수 있습니다.
  • 웹 사이트 주소에 /robots.txt  라고 배치합니다.

 

wechall.net  호스트 주소 하단에 /robots.txt 를 추가했더니 위와 같은 내용을 확인할 수 있었습니다.

 

 

 

 

 

robots.txt 위키피디아 내용을 번역기 돌려서 읽어봤는데 

뭘 위한 작업인지 파악되지 않아 블로그를 참조했습니다.

 

https://otch80.tistory.com/6

 

Wechall - Training: WWW-Robots 정리

WWW-Robots, 인터넷 봇을 주제로 한 문제입니다. - 인터넷 봇이란? 인터넷 상에서 자동화된 작업을 하는 프로그램 인터넷 봇이 하는 역할 중 크롤링에 대해서 언급하고 있습니다. - 웹 크로링이란? We

otch80.tistory.com

 

인터넷에 무언가를 올리다 보면 내가 공개하고 싶지 않은 정보가 생길 수 있는데 이러한 정보들이 검색엔진에 의해서 크롤링 되는 것을 막기 위해 robots.txt 파일을 통해 조절한다고 합니다.

 

해당 폴더에 접근을 막기 위해 경로를 알려주어야 하는데, 이를 통해 폴더 구조를 파악할 수 있다로 하네요.

 

 

 

 

 

robots.txt
This example tells all robots that they can visit all files because the wildcard * stands for all robots and the Disallow directive has no value, meaning no pages are disallowed.

Disallow 지시문에는 값이 없으므로 해당 페이지는 허용되지 않기 때문에 

모든 로봇이 Disallow 지시문 페이지를 제외한 모든 파일을 방문할 수 있다는 이야기 같습니다.

 

 

 

위 사진과 동일한 사진, 재설명 위해 재사용.

 

* User-agent 에 대한 Disallow 경로를 따라 적어줍니다.

TOPS3CR3T 단어가 TOPSECRET 같네요.

 

 

https://www.wechall.net/challenge/training/www/robots/index.php
경로에서 아래 경로와 같이 수정해줍니다.
https://www.wechall.net/challenge/training/www/robots/TOPS3CR3T

 

해결했습니다.

 

challenge/training/www/robots/TOPS3CR3T

'WeChall' 카테고리의 다른 글

[WeChall]Encodings:URL  (0) 2023.07.28
[WeChall]Training: ASCII  (0) 2023.07.27
[WeChall]Training: Crypto-Caesar 1  (0) 2023.07.26
[WeChall]Training: Stegano 1 해보기  (0) 2023.07.26
[WeChall]Training: Get Sourced 해보기  (0) 2023.07.25