法律・倫理ニューススクレイピング

クローラー制御は「拒否」から「契約」へ — robots.txt と RSL 1.0

robots.txtは拒否の意思表示に強い一方、AI時代の「用途別の条件提示」には限界があります。本記事では、RSL 1.0が追加する利用条件指定(License Directive)による契約型制御、導入手順と運用の注意点を整理します。

Ibuki Yamamoto
Ibuki Yamamoto
2026年2月6日 11分で読めます

robots.txtは長らく、「クロールを許可するか、拒否するか」という二択の意思表示を担ってきました。しかし生成AI時代に入り、その前提は大きく揺らぎます。問題は「取得されること」ではなく、「取得されたデータがどのように利用されるか」へと移行したからです。拒否か容認かではなく、「条件付きで許可したい」「対価を伴って流通させたい」というニーズが顕在化しました。こうした要請に応える形で登場したのが、robots.txtを起点に利用条件の提示とライセンス取得を機械可読で扱う規格、RSL 1.0(Really Simple Licensing)です。

この記事でわかること
  • robots.txtの役割と限界
  • RSL 1.0が追加する「契約(ライセンス)」という考え方
  • 実務での導入手順と、効かせるための運用ポイント

結論

結論から言うと、クローラー制御は「Disallowで拒否する」だけの時代から、「利用条件を提示し、同意(ライセンス取得)を前提に許可する」方向へシフトしています。robots.txtは引き続き入口として有効ですが、RSL 1.0のように「何に使ってよいか/だめか」「必要な対価」「遵守すべき条件」を示せる仕組みが、AIクローリングに対する現実的なオプションになりつつあります。RSL 1.0はrobots.txtに利用条件指定(License Directive)を追加し、クローラーにライセンス文書の取得と遵守を求めます。

robots.txtの基本

robots.txtは「Robots Exclusion Protocol(REP)」として標準化されており、クローラーがサイト所有者の意思を参照するための規約です。IETFのRFC 9309では、robots.txtがクローラー向けの“指示”を提供する仕組みとして仕様化されています。つまり、認証・認可のような強制力のあるアクセス制御そのものではありません

押さえておきたいポイント

  • robots.txtは「User-agent」と「Allow/Disallow」のルール群で構成される
  • 適用範囲は、同一ホスト・同一プロトコル・同一ポートに限定される
  • 多くのクローラーは遵守するが、守らないクローラーを技術的に止める仕組みではない

実務上は、検索エンジン向けのガイドとして使われることが多く、Googleもrobots.txtの配置場所や適用範囲、取得方法などをドキュメントで明確にしています。

「拒否」運用の限界

robots.txt中心の運用は、次のような場面で限界が出ます。

AI用途の粒度が足りない

たとえば「検索インデックスはOKだが、生成AIの学習や要約はNG」といった要件が増えています。しかしrobots.txtの基本ディレクティブはAllow/Disallowが中心で、用途別の条件を表現しにくいのが実情です。

守らないクローラーに無力

robots.txtは“拒否の意思表示”にはなりますが、HTTPレベルで遮断する仕組みではありません。悪質なスクレイパー対策としては、WAF、レート制限、署名付き配信、認証など別レイヤーが必要になります。

交渉・契約の入口になりにくい

本当に欲しいのは「使っていい。その代わり条件がある」という世界です。ところが従来のrobots.txtでは、条件(対価、利用範囲、保存期間、再配布可否など)を機械可読で提示しづらく、運用が個別交渉・メール・法務手続きに寄りがちでした。

注意

robots.txtは法的な契約書そのものではありません。とはいえ、サイト側が明確なポリシーを提示し、相手がそれを参照した上でアクセスしている状況は、後段の法的整理(契約・不法行為・不正アクセス等)で争点になり得ます。社内の法務・コンプライアンスとセットで運用設計するのが安全です。

RSL 1.0とは

RSL 1.0(Really Simple Licensing)は、robots.txtを拡張して利用条件とライセンスを機械可読で提示し、クローラーに「取得・遵守」を求めるための仕様です。報道ベースでも、RSLはrobots.txtを土台にしつつ、AIクローリングの利用条件・補償(支払い等)といった枠組みを整える狙いが説明されています。


robots.txtにLicenseを追加

RSLのガイドでは、RSL準拠のrobots.txtに利用条件指定(License Directive)を含め、RSLライセンス文書(またはフィード)のURLを指すことが求められます。さらに、そのディレクティブはユーザーエージェントに紐づかないグローバルな扱いとされています。

# robots.txt(例)
License: https://example.com/license.xml

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /private/

「拒否」から「契約」へ

RSLの肝は、単に「来るな」ではなく、「来てよいが、こう使ってほしい(条件を守ってほしい)」を表現できる点です。これにより、出版社・EC・データ提供企業などが、AI/検索/提携など用途別に条件を設計しやすくなります。

導入の進め方

ここからが本題です。RSL 1.0の導入は「robots.txtを直す」だけで終わりません。運用まで含めて段階的に設計します。

1. 目的を分解する

まず、クローラーに対して何をしたいのかを分解します。

  • 検索インデックスは許可したいか
  • AI学習・要約・回答生成への利用を許可するか
  • 許可する場合、対価や再利用範囲をどうするか
  • 社内規約(利用規約/プライバシー/著作権方針)と整合するか

2. ライセンス文書を用意

RSLでは、robots.txtから参照されるライセンス文書(またはフィード)が前提になります。ここに「何を許可し、何を禁止し、どんな対価・条件が必要か」を定義します。法務レビューを必須にするのが現実的です。

3. robots.txtにLicenseを追記

RSLのガイドに従い、利用条件指定(License Directive)を追加します。URLは絶対URLで、ホストが異なってもよいとされています。

4. 強制力は別レイヤーで補う

RSLは“契約の入口”を整えますが、守らない相手を技術的に排除する機能は環境依存になります。実務では次を組み合わせます。

  • レート制限(IP/ASN/UA単位)
  • Bot判定(指紋/JSチャレンジ/ヘッダ検証)
  • WAF/CDNのBot管理
  • 重要ページの認証化・署名付きURL

運用で効かせるコツ

  • 「許可する相手・用途」を社内で先に定義し、技術設定は後から合わせる
  • クローラーのアクセスログを用途別(AI/検索/提携)に分類できるようにする
  • 違反時の手順(遮断、連絡、法的措置)をテンプレ化する

robots.txtとRSL比較

「結局どちらを使えばいいのか?」という疑問に答えるため、役割の違いを整理します。

観点 robots.txt(REP) RSL 1.0
主目的 クロール可否の指示 利用条件・ライセンス提示
表現粒度 Allow/Disallow中心 条件やライセンス取得を前提化
強制力 原則アドバイザリ 契約設計の枠組み(実効性は運用と組合せ)
想定相手 主に検索クローラー AI/データ収集クローラーを含む

実務の論点

規約と整合させる

RSLを入れるなら、利用規約・著作権ポリシー・API利用条件と齟齬がないようにします。例えば「robots.txtでは許可、規約では禁止」のような矛盾は、交渉・紛争時に不利になり得ます。

検索流入を落とさない

AI向けを締めつつ検索は維持したい場合、対象クローラー(User-agent)を分けたルール設計が重要です。Googleの解釈や適用範囲は検索セントラルのドキュメントで確認し、意図しないブロックを避けます。

適用範囲を明確に

REPではrobots.txtの適用範囲が「ホスト・プロトコル・ポート」に限定されるため、サブドメインや別ホストに分散した配信(画像CDN、静的配信、API)では個別に設計が必要です。

注意

RSLは比較的新しい仕様です。相手クローラーがRSLに対応していない場合、期待通りに「契約として機能」しない可能性があります。対応状況の確認と、非対応相手への技術対策(WAF等)を前提にしてください。

クローラー対策を整備しませんか?

RSL 1.0とrobots.txtを起点に、技術対策(WAF/レート制限)と契約・規約を整合させた運用設計まで支援します。現状のアクセスログを前提に、効く対策から段階的に進めましょう。

お問い合わせスクレイピングに関するご相談・お見積もりはお気軽にどうぞ
相談する

まとめ

  • robots.txtはREPとして標準化された一方、アクセス制御そのものではなく“指示”に留まる
  • 生成AI時代は「拒否」だけでなく「許可+条件提示(契約)」のニーズが増えている
  • RSL 1.0はrobots.txtにLicenseを追加し、ライセンス取得と遵守をクローラに求める枠組み
  • 実効性は、相手の対応状況とWAF/レート制限等の運用設計で決まる

参考リンク

この記事を書いた人

Ibuki Yamamoto
Ibuki Yamamoto

Webスクレイピングエンジニア。10年以上の実務経験を持ち、大規模なデータ収集プロジェクトを数多く手がける。PythonとJavaScriptを得意とし、技術ブログでは実践的なスクレイピング手法を発信している。

データ収集のプロに
お任せください

年間1億件以上のデータ収集実績を持つプロフェッショナルチームが、大規模スクレイピング・アンチボット対策など、あらゆる課題を解決します。

1億+
年間データ収集件数
24/7
安定稼働
高品質
データ精度