はじめに
Agent Readinessと相互作用する方法は4つあります:- CLI:
/readiness-reportslash commandを実行してリポジトリの準備レベルを評価する - Web Dashboard: Agent Readiness dashboardで組織の準備状況スコアを表示する
- API: Readiness Reports APIを介してプログラム的に準備状況レポートにアクセスする
- 修復(近日公開): CLIまたはダッシュボードから直接、失敗した基準を自動的に修正する
自律的開発の姿
組織が高いエージェント準備状態に達したときはどのような姿になるのでしょうか?技術基盤が整った際に可能になるワークフローの具体例を示します。会話からコードへ
開発者が構築したいものを説明すると、システムがデプロイまでを実行します。 入力: 「認証モジュールをリファクタリングして、後方互換性を保ちながらPKCEを使用したOAuth2をサポートするようにしてください。」 システムの動作:- 確立されたパターンに従って慣用的なコードを生成
- リンター、型チェッカー、テストスイートに対して検証
- プルリクエストとコードレビュープロセスを処理
- ドキュメントを更新し、関係者に通知
- デプロイし、問題を監視
デザインから実装へ
デザイナーがモックアップを共有すると、システムが引き継ぎなしに実装します。 入力: 新しいダッシュボードのFigmaモックアップ。 システムの動作:- 視覚的仕様とデザインシステムを解釈
- 適切なスタイリングとレスポンシブ性を持つUIコンポーネントを実装
- 既存のAPIに接続するか新しいエンドポイントを作成
- ローディング状態、エラーハンドリング、アクセシビリティを追加
- ユーザーインタラクション用のテストを生成
- デザインレビュー用にステージング環境へデプロイ
バグからデプロイされた修正まで
顧客が問題を報告すると、システムが診断、修正、デプロイを自律的に実行します。 入力: サポートシステムを通じたバグレポート。 システムの動作:- エラーログと影響に基づいてトリアージ
- 再現手順と診断コンテキストを含むチケットを作成
- コード解析から根本原因を特定
- 修正と包括的なテストを生成
- PRを開き、レビュー用に開発者をアサイン
- 修正がデプロイされた際にサポートに通知
5つの準備レベル
リポジトリは5つの異なるレベルを通じて進歩し、各レベルはあなたのコードベース内で自律エージェントがどのように動作できるかの質的変化を表します。| レベル | 名前 | 説明 | 基準例 |
|---|---|---|---|
| 1 | Functional | コードは動作するが、手動セットアップが必要で自動検証がない。すべてのリポジトリが持つべき基本的なツール。 | README、リンター、型チェッカー、単体テスト |
| 2 | Documented | 基本的なドキュメントとプロセスが存在する。ワークフローが文書化され、一部の自動化が導入されている。 | AGENTS.md、devcontainer、pre-commitフック、ブランチ保護 |
| 3 | Standardized | 明確なプロセスが定義、文書化され、自動化を通じて強制されている。開発は組織全体で標準化されている。 | 統合テスト、シークレットスキャン、分散トレーシング、メトリクス |
| 4 | Optimized | 高速なフィードバックループとデータ駆動型の改善。システムは生産性を重視して設計され、継続的に測定されている。 | 高速なCIフィードバック、定期的なデプロイ頻度、不安定テストの検出 |
| 5 | Autonomous | システムは洗練されたオーケストレーションによって自己改善している。複雑な要件が自動的に並列実行可能な形に分解される。 | 自己改善システム |
スコアリングの仕組み
レベル進行
レベルを解放するには、前のレベルの基準の80%をパスする必要があります。これにより段階的な進行システムが作られます:- すべてのリポジトリはレベル1からスタート
- レベル1基準の80%をパス → レベル2を解放
- レベル2基準の80%をパス → レベル3を解放
- 以下同様…
評価スコープ
基準は2つの異なるスコープで評価されます:- Repository Scope: リポジトリ全体に対して一度評価される(例:CODEOWNERSファイルが存在する、ブランチ保護が有効)
- Application Scope: モノレポ内のアプリケーションごとに評価される(例:リンターが設定されている、各アプリに単体テストが存在する)
3 / 4(4つのアプリのうち3つがパス)のようなスコアを表示します。
技術的柱
Agent Readiness Modelは、自律運用の基盤を形成する9つの技術的柱に基準を整理します。Style & Validation
リンター、型チェッカー、フォーマッターが明らかなエラーを即座に捕捉します。エージェントは構文エラー、スタイルの不整合、型の不一致でサイクルを無駄にすることを避けます。- 基準例: リンター設定、型チェッカー、コードフォーマッター、pre-commitフック
Build System
明確で決定論的なビルドコマンドにより、エージェントは変更内容がコンパイルされ実行されることをコミット前に検証できます。どのコマンドを実行すべきか、どのフラグを渡すべきかを推測する必要がありません。- 基準例: ビルドコマンドの文書化、依存関係の固定、VCS CLIツール
Testing
高速な単体テストと統合テストが緊密なフィードバックループを作成します。エージェントはテストを実行し、失敗を確認し、反復することで変更が正しく機能するかを学習します。- 基準例: 単体テストの存在、統合テストの存在、ローカルでテスト実行可能
Documentation
明示的な指示により、「みんなが知っている」部族の知識を格納します。環境のセットアップ方法、テストの実行方法、変更のデプロイ方法、問題のデバッグ方法。エージェントは発見可能で正確かつ保守された文書化された指示を必要とします。- 基準例: AGENTS.md、README、ドキュメントの新鮮さ
Development Environment
再現可能な環境が一貫性を保証します。開発者とエージェントが同一の環境で作業する際、問題のクラス全体が消失します。「私のマシンでは動作する」問題はもうありません。- 基準例: Devcontainer、環境テンプレート、ローカルサービス設定
Debugging & Observability
構造化されたログ、トレーシング、メトリクスにより、エージェントはコードが実際に何をするかをランタイムで可視化できます。優れた観測可能性により「失敗した」が「ZをYに受信後に呼び出した際にXがnullだったために失敗した」に変わります。- 基準例: 構造化ログ、分散トレーシング、メトリクス収集
Security
ブランチ保護、シークレットスキャン、コードオーナーにより、エージェントがセキュリティ問題を導入したり必要なレビューをバイパスすることを防ぎます。エージェントは高速に移動しますが、自動ガードレールにより安全に高速移動することを保証します。- 基準例: ブランチ保護、シークレットスキャン、CODEOWNERS
Task Discovery
エージェントが作業を自律的に発見し範囲を定めるためのインフラストラクチャ。適切に構造化されたイシューとテンプレートにより、エージェントは何をする必要があるかを理解できます。- 基準例: イシューテンプレート、イシューラベリングシステム、PRテンプレート
Product & Experimentation
影響を測定し、実験を実行し、ユーザー行動を理解するためのツール。エージェントは機能が実際に使用されているかを確認し、変更の影響を測定できます。- 基準例: プロダクト分析の計装、実験インフラストラクチャ
