クローラー制御は「拒否」から「契約」へ

robots.txtは長らく、「クロールを許可するか、拒否するか」という二択の意思表示を担ってきました。しかし生成AI時代に入り、その前提は大きく揺らぎます。問題は「取得されること」ではなく、「取得されたデータがどのように利用されるか」へと移行したからです。拒否か容認かではなく、「条件付きで許可したい」「対価を伴って流通させたい」というニーズが顕在化しました。こうした要請に応える形で登場したのが、robots.txtを起点に利用条件の提示とライセンス取得を機械可読で扱う規格、RSL 1.0（Really Simple Licensing）です。

この記事でわかること

robots.txtの役割と限界
RSL 1.0が追加する「契約（ライセンス）」という考え方
実務での導入手順と、効かせるための運用ポイント

結論

結論から言うと、クローラー制御は「Disallowで拒否する」だけの時代から、「利用条件を提示し、同意（ライセンス取得）を前提に許可する」方向へシフトしています。robots.txtは引き続き入口として有効ですが、RSL 1.0のように「何に使ってよいか/だめか」「必要な対価」「遵守すべき条件」を示せる仕組みが、AIクローリングに対する現実的なオプションになりつつあります。RSL 1.0はrobots.txtに利用条件指定（License Directive）を追加し、クローラーにライセンス文書の取得と遵守を求めます。

robots.txtの基本

robots.txtは「Robots Exclusion Protocol（REP）」として標準化されており、クローラーがサイト所有者の意思を参照するための規約です。IETFのRFC 9309では、robots.txtがクローラー向けの“指示”を提供する仕組みとして仕様化されています。つまり、認証・認可のような強制力のあるアクセス制御そのものではありません。

押さえておきたいポイント

robots.txtは「User-agent」と「Allow/Disallow」のルール群で構成される
適用範囲は、同一ホスト・同一プロトコル・同一ポートに限定される
多くのクローラーは遵守するが、守らないクローラーを技術的に止める仕組みではない

実務上は、検索エンジン向けのガイドとして使われることが多く、Googleもrobots.txtの配置場所や適用範囲、取得方法などをドキュメントで明確にしています。

「拒否」運用の限界

robots.txt中心の運用は、次のような場面で限界が出ます。

AI用途の粒度が足りない

たとえば「検索インデックスはOKだが、生成AIの学習や要約はNG」といった要件が増えています。しかしrobots.txtの基本ディレクティブはAllow/Disallowが中心で、用途別の条件を表現しにくいのが実情です。

守らないクローラーに無力

robots.txtは“拒否の意思表示”にはなりますが、HTTPレベルで遮断する仕組みではありません。悪質なスクレイパー対策としては、WAF、レート制限、署名付き配信、認証など別レイヤーが必要になります。

交渉・契約の入口になりにくい

本当に欲しいのは「使っていい。その代わり条件がある」という世界です。ところが従来のrobots.txtでは、条件（対価、利用範囲、保存期間、再配布可否など）を機械可読で提示しづらく、運用が個別交渉・メール・法務手続きに寄りがちでした。

注意

robots.txtは法的な契約書そのものではありません。とはいえ、サイト側が明確なポリシーを提示し、相手がそれを参照した上でアクセスしている状況は、後段の法的整理（契約・不法行為・不正アクセス等）で争点になり得ます。社内の法務・コンプライアンスとセットで運用設計するのが安全です。

RSL 1.0とは

RSL 1.0（Really Simple Licensing）は、robots.txtを拡張して利用条件とライセンスを機械可読で提示し、クローラーに「取得・遵守」を求めるための仕様です。報道ベースでも、RSLはrobots.txtを土台にしつつ、AIクローリングの利用条件・補償（支払い等）といった枠組みを整える狙いが説明されています。

robots.txtにLicenseを追加

RSLのガイドでは、RSL準拠のrobots.txtに利用条件指定（License Directive）を含め、RSLライセンス文書（またはフィード）のURLを指すことが求められます。さらに、そのディレクティブはユーザーエージェントに紐づかないグローバルな扱いとされています。

# robots.txt（例）
License: https://example.com/license.xml

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /private/

「拒否」から「契約」へ

RSLの肝は、単に「来るな」ではなく、「来てよいが、こう使ってほしい（条件を守ってほしい）」を表現できる点です。これにより、出版社・EC・データ提供企業などが、AI/検索/提携など用途別に条件を設計しやすくなります。

導入の進め方

ここからが本題です。RSL 1.0の導入は「robots.txtを直す」だけで終わりません。運用まで含めて段階的に設計します。

1. 目的を分解する

まず、クローラーに対して何をしたいのかを分解します。

検索インデックスは許可したいか
AI学習・要約・回答生成への利用を許可するか
許可する場合、対価や再利用範囲をどうするか
社内規約（利用規約/プライバシー/著作権方針）と整合するか

2. ライセンス文書を用意

RSLでは、robots.txtから参照されるライセンス文書（またはフィード）が前提になります。ここに「何を許可し、何を禁止し、どんな対価・条件が必要か」を定義します。法務レビューを必須にするのが現実的です。

3. robots.txtにLicenseを追記

RSLのガイドに従い、利用条件指定（License Directive）を追加します。URLは絶対URLで、ホストが異なってもよいとされています。

4. 強制力は別レイヤーで補う

RSLは“契約の入口”を整えますが、守らない相手を技術的に排除する機能は環境依存になります。実務では次を組み合わせます。

レート制限（IP/ASN/UA単位）
Bot判定（指紋/JSチャレンジ/ヘッダ検証）
WAF/CDNのBot管理
重要ページの認証化・署名付きURL

運用で効かせるコツ

「許可する相手・用途」を社内で先に定義し、技術設定は後から合わせる
クローラーのアクセスログを用途別（AI/検索/提携）に分類できるようにする
違反時の手順（遮断、連絡、法的措置）をテンプレ化する

robots.txtとRSL比較

「結局どちらを使えばいいのか？」という疑問に答えるため、役割の違いを整理します。

観点	robots.txt（REP）	RSL 1.0
主目的	クロール可否の指示	利用条件・ライセンス提示
表現粒度	Allow/Disallow中心	条件やライセンス取得を前提化
強制力	原則アドバイザリ	契約設計の枠組み（実効性は運用と組合せ）
想定相手	主に検索クローラー	AI/データ収集クローラーを含む

実務の論点

規約と整合させる

RSLを入れるなら、利用規約・著作権ポリシー・API利用条件と齟齬がないようにします。例えば「robots.txtでは許可、規約では禁止」のような矛盾は、交渉・紛争時に不利になり得ます。

検索流入を落とさない

AI向けを締めつつ検索は維持したい場合、対象クローラー（User-agent）を分けたルール設計が重要です。Googleの解釈や適用範囲は検索セントラルのドキュメントで確認し、意図しないブロックを避けます。

適用範囲を明確に

REPではrobots.txtの適用範囲が「ホスト・プロトコル・ポート」に限定されるため、サブドメインや別ホストに分散した配信（画像CDN、静的配信、API）では個別に設計が必要です。

注意

RSLは比較的新しい仕様です。相手クローラーがRSLに対応していない場合、期待通りに「契約として機能」しない可能性があります。対応状況の確認と、非対応相手への技術対策（WAF等）を前提にしてください。

クローラー対策を整備しませんか？

RSL 1.0とrobots.txtを起点に、技術対策（WAF/レート制限）と契約・規約を整合させた運用設計まで支援します。現状のアクセスログを前提に、効く対策から段階的に進めましょう。

お問い合わせスクレイピングに関するご相談・お見積もりはお気軽にどうぞ

相談する

まとめ

robots.txtはREPとして標準化された一方、アクセス制御そのものではなく“指示”に留まる
生成AI時代は「拒否」だけでなく「許可＋条件提示（契約）」のニーズが増えている
RSL 1.0はrobots.txtにLicenseを追加し、ライセンス取得と遵守をクローラに求める枠組み
実効性は、相手の対応状況とWAF/レート制限等の運用設計で決まる

参考リンク

この記事を書いた人

Ibuki Yamamoto

Webスクレイピングエンジニア。10年以上の実務経験を持ち、大規模なデータ収集プロジェクトを数多く手がける。PythonとJavaScriptを得意とし、技術ブログでは実践的なスクレイピング手法を発信している。

データ収集のプロに
お任せください

年間1億件以上のデータ収集実績を持つプロフェッショナルチームが、大規模スクレイピング・アンチボット対策など、あらゆる課題を解決します。

1億+

年間データ収集件数

24/7

安定稼働

高品質

データ精度

お問い合わせ

クローラー制御は「拒否」から「契約」へ — robots.txt と RSL 1.0

結論