この記事は ex-crowdworks Advent Calendar 2024の11日目の記事です。

はじめに

今年、株式会社クラウドワークスを退職した@nisyuuです。日本原水爆被害者団体協議会の皆様、ノーベル平和賞受賞、誠におめでとうございます。エンジニアとしてクラウドワークステック（旧クラウドテック）というフリーランスと企業をマッチングするエージェントサービスを開発していました。

クラウドワークステックのような検索流入を重視するサイトでは、Googleなどの検索エンジンでどのようにしてページが表示されるかを考える必要があります。本記事では、SEO（検索エンジン最適化）におけるクローラーやインデックス、robots.txtなどの重要な要素について解説します。

クローラーとインデックスとは？

クローラーは、検索エンジンがWebサイトを巡回し、情報を収集するためのプログラムです。集めた情報は検索エンジンのデータベースに登録され、この登録作業をインデックスと呼びます。

検索時にユーザーが入力したキーワードに基づいて、このインデックスが参照され、関連するページが検索結果として表示されます。

Googleを例に挙げると、検索順位を決定するまでに以下の3つのステップがあります。

クローラーは、リンクを辿って新しいページを発見します。このとき重要となるのが他のサイトから自分のサイトへ向けられた被リンクです。

被リンクがあることでクローラーに発見されやすくなります。信頼性の高いサイトからの被リンクは、SEOにおいてもプラスの効果があります。

Googleの検索順位は、以下の要因で決まります。

robots.txtは、クローラーに対してアクセスの制御を伝えるファイルです。特定のページやディレクトリをクローリング対象外にできます。

User-agent: *
Disallow: /private/

ただし、robots.txtでは検索結果への表示を完全に制御することはできません。例えば、URLが他のサイトで共有されている場合、そのURLが検索結果に表示される可能性があります。

検索エンジンに表示させたくないページには、<meta>タグやHTTPレスポンスヘッダーでnoindexを指定することを推奨します。

<meta name="robots" content="noindex" />

Googlebotに対してのみ制御をかけたい場合は以下のように指定します。

<meta name="googlebot" content="noindex" />

また、メタタグを使用せずにHTTPレスポンスヘッダーで設定する方法もあります。

HTTP/1.1 200 OK
X-Robots-Tag: noindex

クローラーが正しくサイトを巡回できるようにするには、JavaScriptやCSS、画像などのアセットファイルへのアクセスをrobots.txtで許可しておく必要があります。これにより、Googlebotがページを正確に理解できるようになります。

Google Search ConsoleのURL検査ツールを使えば、ページが正しくインデックスされているかやモバイルフレンドリーかを確認できます。

クローラーやインデックスの仕組みを理解し、クローラーやrobots.txtを正しく活用することはSEOの基本です。基本を理解することで、検索順位を向上するためのSEO対策に取り組むことができます。