自社サイトを検索上位に表示させたい場合には、まずはGoogleのデータベースに登録してもらうことが必要です。
こうしたGoogleのデータベースへの登録や、サイトの評価を行っているのがGoogleクローラーです。
そこで本記事では、Googleのクローラーについてご紹介し、サイト運営の中でどのように付き合っていけば良いのかをご説明いたします。
Googleクローラーについて理解できていないという方は、ぜひ参考にしてみてください。
Googleクローラーとは?検索エンジンが検索順位を決めるまでの仕組み
まず検索エンジン特にGoogleの検索順位決定ロジックについて解説します。
検索順位を決定する仕組みには主に3つのステップがあります。
クローリング、インデックス、ランキング、3つの各ステップについてご紹介します。
ステップ①クローリング
まず、検索エンジンではクローラーと呼ばれるAIがネットに広がる無数のサイトページを回遊(クローリング)します。
クローリングをきっかけに、検索エンジンはあなたが作ったサイトがあることを知ります。
クローリングを通してWebに存在するデータを収集します。
ステップ②インデックス
クローリングであなたが作ったサイトの情報を収集し、Googleはデータベースへその情報を登録します。この一連の作業が「インデックス」です。
Googleはユーザーが検索したキーワードを元に、インデックスされた膨大なページ情報の中から検索キーワードに最も適したページを検索結果面に表示します。
インデックスされなければ、あなたが作ったサイトはGoogle検索で表示されません。
ステップ③ランキング
インデックスされたページ情報と検索キーワードを元に、Googleはあなたのサイトの検索順位を決めます。
Googleは200を超える項目であなたが作ったのサイトの評価を行います。同様に、他のサイトも評価を行い、どのサイトがユーザーのニーズを満たすかを選んで検索順位を決定しています。
評価項目には、被リンク数、ページタグ情報、検索意図の一致率、サイトスピードなどがあります。
あくまでこれらの評価項目は、SEOの長い歴史の中で「おそらく影響しているのだろう」と言われている項目であり、Googleは評価項目を明確にはしていません。
Googleクローラーとは
Googleクローラーとは、全世界のwebサイトを巡回し、情報を収集してgoogle上のデータベースに登録するプログラムのことです。
このプログラムが定期的に、webサイトの新しいページや新たに更新されたページを読み、検索結果面に反映されるデータを更新します。
つまり、このプログラムに認識されなければインデックスされることもなく、更新した情報も反映されず、いつまでたっても検索結果面に出てこないということが起きます。
そのため、SEO対策には、クローラーを呼び込むための対策も必須になります。
Googlebotについて
Googleクローラーのことを別名Googlebotとも言います。
どちらも同じクローラーのことを指しており、違いはありません。
Googlebotが取得するファイルの種類
Googlebotでは、以下の様なファイルを取得しています。
・HTML
・CSS
・JavaScript
・画像ファイル
・動画ファイル
・WordやExcelなど、Office系ファイル
HTMLなどの他にも、いろいろなメディアファイルにもクロールして取得しています。
Googlebotのクロール頻度
クロール頻度は、クローラーの巡回している相対的回数です。
クロール頻度に関してもGoogleは明確にしていません。
サイトをクロールする頻度はユーザー側で変更することはできませんが、サイト上の新しいコンテンツや更新したコンテンツを Google にクロールさせたい場合は、Google search consoleから再クロールの申請をすることができます。
新規記事の投稿、既存コンテンツを更新した際には、再クロールのリクエストをしましょう。
クロール頻度は高ければGoogleからの評価が上がるわけではないですが、Googleは人気サイトのクロール頻度が高いのも事実です。
質の高いコンテンツを作成することでクロール頻度が上がり、Googleからの評価が上がります。
GoogleクローラーのアクセスをIPアドレスで確認する際の注意
Googleクローラーがサーバーにアクセスしてきたか確認する際、IPアドレスだけで判断しないよう注意が必要です。DNSリバースルックアップでGoogleのIPか確認できますので、あわせて確認しましょう。
Googleでは、使用するIPアドレスの数が多く、変更する可能性がもあるため、GooglebotのIPアドレスを公開していません。誤ってGooglebotがあなたのサイトにアクセスできなくならないよう注意しましょう。
また、Googlebot が呼び出し元であることを確認するには、以下の手順で行います。
1.ログに残ったIPアドレスを用い、hostコマンドでDNSリバースルックアップする
2.ドメイン名が「googlebot.com」か「google.com」となっているかをチェック
3.2のドメイン名を用い、hostコマンドでDNSフォワードルックアップする
4.ログに残ったIPアドレスと一致しているかチェックする
Googleクローラーに正しく認識してもらう方法
正しくクロールしてもらうにはどうすればいいのか、いくつかの方法がありますが、今回はその一例をご紹介します。
サイトの構成を単純にする
サイトを細分化してカテゴラズ化するのも必要ではあります。
しかし、あまりにも細かくしすぎるとクローラーが効率的にサイトを巡回できなくなってしまうことがあります。
内部リンクを設置する
クローラーはリンクを辿り巡回します。
そのため、サイトのコンテンツ内には内部リンクを必ず設置することをおすすめします。
特に、関連性の高いコンテンツを2つお互いにリンクを紐づけることでクローラーもサイトを行き来しやすくなります。
サイトの見出しなどを最適化する
クローラーはサイトの全てを見ているわけではありません。
テキストを重点的に見ています。なので画像にはalt属性を必ずつけておくことや、タイトルや見出しはタグをしっかりつけておくなどが重要となります。
robots.txtを記述する
クローラーは、以下の情報からクロールします。
・robots.txt
・サイトマップ
・クロール履歴
クローラーに優先度の高いページに対して確実にクロールさせるために、robots.txtにクロール不要ページを示しておき、クローラーをコントロールしましょう。また、クロールから避けたいものは、noindexの処理をしておきましょう。
Googleクローラーの巡回速度について
クローラーが巡回速度を上げるためのポイントをご紹介していきます。
クロールの速度に影響する指標
クロールは、以下が速度に影響を与えます。
・ページの人気
・表示速度
・重複コンテンツがあるか
・サーバーエラーは起きるのか
Google公式でも、上記はクロール速度に影響が出ると言っている内容です。
クローラーの巡回速度を上げるポイント
では、どうしたらクローラーは巡回速度を上げてくれるのでしょうか。ポイントをいくつかご紹介します。
インデックス登録のリクエスト
Googleサーチコンソールで、URLごとにインデックス登録のリクエストが可能です。ページ数が少ない場合におすすめです。
クロールするページを減らす
ファセットナビゲーションなどが多いサイトであれば、robots.txt でクロール対象のページを減らしましょう。ファセットナビゲーションはインデックスの必要がないですし、重複コンテンツとみなされて評価を下げられてしまう可能性があります。
URLを正規化する
www.の有無やindex.htmlの有無など、1つのページに複数のURLがある場合、URLを正規化して1つにまとめましょう。URLを正規化することで、クロール対象のページを減らしておけます。
リンク切れをなくす
クローラーはリンク先もチェックします。リンク切れがおきていないか確認し、対処しましょう。リンク切れは、Googleサーチコンソールでも確認可能です。
サーバーの応答速度を上げる
ページの表示速度を上げることで、サイトへの評価も上げられます。ページ速度計測ツールなどを使用して速度を確認し、遅い場合は画像を圧縮するなどで容量を減らしましょう。
Googleクローラーへの巡回申請方法
もし、自社サイトのURLをGoogleで検索しても検索結果に表示がされない場合、自社サイトが巡回されていないということになります。
そんな時、ただ待っているだけではクローリングされない可能性もあるので、早くインデックスされるためにクローラーを呼び、インデックスを促進する必要があります。
サイトマップの送信
インデックスしたいURLがたくさんある場合、サイトマップ の送信がおすすめです。
サイトマップ とは、サイトの構成を示す地図のようなものです。サイトマップ生成ツールを使用することで、簡単に作成できます。
また、サイトマップ の送信は以下の手順で行います。
1.Googleサーチコンソールにログインする
2.レフトメニューのインデックスにある「サイトマップ」をクリック
3.「新しいサイトマップ の追加」にサイトマップのURLを入力し、送信をクリック
3で使用するサイトマップのURLは、XMLサイトマップを作成したのであれば「sitemap.xml」と入力することで送信できます。
URL検査ツールの利用
インデックスしたいURLが少なければ、URL検査ツールの利用がおすすめです。
元々は旧サーチコンソールにFetch as Googleというものがありましたが、Fetch as Googleが新しくなり、現在はURL検査ツールとなっています。
利用方法は、以下の手順となります。
1.Googleサーチコンソールにログインする
2.レフトメニューの「URL検査」をクリック
3.画面上のスペースにインデックスしたいURLを入力
4.入力したURLの登録状況が表示されたら「インデックス登録をリクエスト」をクリック
4で表示されるURLの登録状況は、インデックス登録状況によって異なります。
すでにインデックスされたURLでは「URLはGoogleに登録されています」と表示され、まだインデックスされたことがないURLでは「URL がGoogleに登録されていません」と表示されます。
しかし、どちらの場合にも登録状況表示の右下に「インデックス登録をリクエスト」のリンクがありますので、最終的な処理方法は変わりません。
Googleクローラーが巡回したページの確認方法
クローラーへ巡回申請をした後、インデックス登録ができたか確認する方法をご紹介します。
「site:」検索を使う
Googleの検索窓に「site:(自社サイトのURL)」と入力して検索することで、検索結果にインデックスされているページが表示されます。
検索結果の中に対象のページがあるか確認しましょう。
Googleサーチコンソールのカバレッジレポートを使う
Googleサーチコンソールのカバレッジレポートからも確認ができます。
カバレッジレポートは、以下の手順で利用できます。
1.Googleサーチコンソールにログインする
2.レフトメニューのインデックスにある「カバレッジ」をクリック
表示されたカバレッジレポートの詳細にエラーがある場合、リクエストしたURLがインデックス登録できていないので、詳細を確認し対処した上で再度リクエストを行いましょう。
また、カバレッジレポートの「有効」をクリックすると、新しく詳細が表示されます。その新しい詳細からもインデックス登録されたURLを確認できます。
Googleクローラーを拒否することもできる
必要に応じて、Googleクローラーを拒否することもできます。
Googleクローラーを拒否する理由
以下のような場合には、クロールを拒否した方が良いでしょう。
テスト中のページ
まだ質を高められていないページがインデックスされてしまうと、評価を下げる原因となります。
運営者用ページ
運営者用ページは、公開してしまうとセキュリティ面が不安になりますし、公開したくない情報が漏れてしまいます。
閲覧制限をかけたページ
会員限定ページなど、公開してしまうと誰でも訪問できるようになってしまいます。
キャンペーン情報など
情報解禁まで慎重になりたい内容も、公開してしまうと競合にも情報が漏れてしまいます。
Googleクローラーを拒否する方法
Googleクローラーを拒否するには、以下の方法があります。
・URLをブロックする
・メタタグでインデックスしないよう指示する
・ディレクトリにURLを保存して保護する
Google Analyticsからクローラーを除外する方法
Google Analyticsのデータには、クローラーが閲覧した数も含まれてしまっています。そのため、アクセス解析をする際には、クローラーを除外した数値を出す必要があります。
Google Analyticsからクローラーを除外するには、以下の手順で行います。
1.Google Analyticsにログインする
2.レフトメニューの「管理」をクリック
3.ビューにある「ビューの設定」をクリック
4.ボットのフィルタリングという項目の「既知のボットやスパイダーからのヒットを全て除外します」にチェックを入れ、「保存」をクリック
まとめ
以上のように、Googleのクローラーに対する正しい知識を持つことで、サイト運営に役立てることができます。また、SEO施策を行う場合にもGoogleクローラーについて知っておくことは大切です。本記事を参考にしていただき、あなたのサイト運営にお役立てください。