robots.txtで検索エンジンのクローラーを制御する

robots.txtとは

robots.txtとは、GoogleやYahoo!などといった、自サイトの情報を取得(クロール)するプログラム(クローラー)を制御するためのテキストファイルです。例えば、特定のファイルや、ディレクトリをクロール禁止に指定することで、それらの関連ページや画像などを検索エンジンにインデックスさせないようにする、などといったことができます。

クロール最適化におけるrobots.txtの役割

robots.txtは不要なページに対するクローラーのアクセスをブロックすることができる。
つまりSEO上クロールが不要なページにはクローラーが回らないようになるのでクロールバジェットが無駄に消費されないようになる。結果、クローラーを回す必要のあるページに、より多くのクローラーが回るようになるためサイト全体のSEOが改善される。

robots.txtの作り方

サイト全体をブロックする場合

User-Agent:*
Disallow:/

Sitemap:http://example.com/sitemap.xml

User-Agent:
これは、どのクローラーの動きを制御するかを指定するもの。「*」は全てのクローラーに指示することを表す。

Disallow:
これは、クローラーのアクセスを制御するファイルを指定するもの。サイト全体をブロックする場合は「Disallow:/」。特定のフォルダーをブロックする場合、「Disallow: /フォルダー名/」

robots.txt ファイルを作成する – Search Console ヘルプ

robots.txt コードはテキストファイルとして保存してください。
ファイルはサイトの最上位のディレクトリ（またはドメインのルート）に置いてください。
ファイルには robots.txt という名前を付けてください。

googleが行なっているrobots.txtの処理
https://www.google.co.jp/robots.txt

support.google.com

サイト最適化の為のrobots.txtの書き方と効果的な活用方法