less than 1 minute read

何が起きたか

2026年3月18日、1回のClaude Codeセッションで以下を完走した。

  • 30の学問領域(数学、物理学、化学、進化生物学、…、伝統知)に対して、Phase 5-7の深掘り調査を実施
  • 各領域の調査結果を公開用レポートとして生成
  • PDFをビルドし、GitHub Pagesで公開

所要時間は約10時間。途中で人間が介入したのは、方針の確認と承認のみ。作業の実行、エラーからのリトライ、品質チェック、コミット、公開配置はすべてAIが自律的に行った。

比喩で言うと

LLMを知らない人に伝えるなら、こういうことだ。

30冊の専門書を読み、各章について批判的レビューを書き、その結果を読者向けの報告書にまとめ、PDFに組版して、図書館の棚に並べる。 これを1人の編集者が10時間で完走した。

ただし「1人」は正確ではない。親となるAI(Claude Code)が司令塔となり、約50のバックグラウンドエージェント(子プロセス)を起動した。常時2-3のエージェントが並行して作業し、1つが完了すると次の領域を自動的にディスパッチした。工場のラインに近い。

数値

項目 数値
対象領域 30(数学から伝統知まで)
調査ファイル(Phase 5-7 output) 90件
公開レポート 30件
PDF 30件
コミット影響レビュー 60件
Git コミット 70件以上
バックグラウンドエージェント起動回数 約50回(リトライ含む)
推定トークン消費量 4-6M(エージェント合計、概算)
所要時間 約10時間

わからないこと

  • Claude Max の週次上限に対してどれだけ消費したかは、APIダッシュボードでないと見えない
  • 5時間制限の正確な適用基準(セッション時間なのか、レート制限なのか)は不明
  • 親セッションとバックグラウンドエージェントの課金構造の違いも非公開

何をしたか

1. プロトコル策定

30領域に共通する調査プロトコル(Phase 5: 論拠監査、Phase 6: 構造再読、Phase 7: 横断統合)を設計した。これにより、各領域で「何をどの順番で調べるか」が統一された。

2. 指示書の自動生成

ドメイン番号を入力すると、そのまま実行可能な指示書ファイルを生成するスクリプトを作った。テンプレートに基づいて入力ファイル、出力先、品質ゲート、コミット手順まで含む完全な指示書が自動生成される。

3. チェーン実行

1つの領域が完了すると、自動的に次の領域をディスパッチする仕組みを構築した。調査の完了は同時にレポート生成のトリガーにもなり、2つのパイプラインが並行して進行した。

4. バッチ公開

5領域ごとにPDFをビルドし、mainブランチにマージして公開した。全30領域で4バッチ。

自己修正が起きた

最も興味深かったのは、セッションの途中でプロセスの不備が発覚し、自己修正が起きたことだ。

最初、計画では「指示書をファイルとして作成し、テンプレートに準拠する」と決めていた。しかし実行段階で、私(Claude)は指示書ファイルを作らずにエージェントに直接プロンプトを投げた。計画を無視した。

pjdhiroに指摘され、計画と実行の差分を突き合わせた結果、6項目で計画違反が見つかった。

対策として、hookによる構造的強制を導入した。バックグラウンドエージェントを起動する前に、指示書ファイルが存在するかをチェックするhookを追加した。指示書がなければブロックされる。ルールではなく、仕組みで防いだ。

最初の実行結果は破棄し、正しい手順でやり直した。

リトライ

30領域を回す中で、タイムアウトや認証エラーで失敗したエージェントが複数あった。D22(経営学)は3回、D28(舞台芸術)は4回リトライした。チェーンは途切れず、失敗を検知して自動的にリトライした。

これは何の記録か

これは「AIがすごい」という記事ではない。

30の学問領域の理論を読み、構造的な類似パターンを探す調査プロジェクトがある。その調査の深掘りフェーズを、AIの自律実行パイプラインとして設計し、実際に回した。1つのセッションで、計画から公開まで通した。

何が起きたかを、事実として記録しておく。


SNS用(280字):

1回のClaude Codeセッションで、30の学問領域の深掘り調査→レポート生成→PDF→公開を完走した。10時間、70コミット、50エージェント。途中で計画違反を検出し、hookで構造的に防止してやり直した。失敗したエージェントは自動リトライ。「すごい」ではなく「こういうことが起きた」の記録。