クローラーのインデックスを制御する方法2種とその違い

投稿日：2017/04/25

noindexとrobots.txtの2種類がある。
その違いと、注意点をここに記す。

noindex

インデックスさせたくないページのmetaタグに記入。
ページ単位での設定が必要になる。

<meta name="robots" content="noindex">

robots.txt

ドメインのrootディレクトリに配置する。
制御したいディレクトリに設置するわけではないので注意
中は以下のように記述する。

User-agent: *  
Disallow: /

ディレクトリ単位も可能。
フォーマットは以下を参照。
http://holy-seo.net/blog/seo/how-to-control-index-using-robots-or-noindex/

両者の違い

どちらもクローラーのインデックスをさせないという意味では同じだが、
その性質が違う。

noindex ・・・クローラーのページまでの到達を受け、インデックスさせない意思表示をする。
robots.txt ・・・クローラーのクロールそのものを受け付けない。

つまり、robots.txtさえ設置してあればクローラーはページに到達できないためnoindexを書いても意味がない。必要がないということになる。

これだけの情報では両者の違いはディレクトリ単位の制御とファイル単位の制御なだけに思えるが、以下のような特殊な要件の場合は適切な配置が必要になるため注意が必要。

特殊な要件

一度クローラーが回り、インデックスさせてしまったあと、
インデックスされた情報を消したい（隠したい）場合。
安直にrobots.txtを設置してしまうと、クローラーの再クロールを弾くだけとなる。
インデックス情報は残り続け、消すことはできなくなる。
こういう要件の場合はrobots.txtはあえて使わず、
noindexを使って対応するのが良い。
あえてクロールさせて、インデックスしないという意思表示をする、ということ。

クローラーのインデックスを制御する方法2種とその違い

noindex

robots.txt

両者の違い

特殊な要件

タグ抜粋