WebArena: A Realistic Web Environment for Building Autonomous Agentsを読んだ。
注意: 以降はClaude3を用いて、論文に対して質問・回答を繰り返した結果・出力を含む
WebArenaは、自然言語命令に基づいてタスクを実行する自律エージェントの開発と評価のための、高度にリアルで再現性の高いウェブ環境。
- 実際のウェブサイトを模倣した4つのカテゴリ(Eコマース、ソーシャルフォーラム、協調ソフトウェア開発、コンテンツ管理システム)の機能を備えた環境で、実データが取り込まれている。
- 地図や電卓などのツールや外部知識ベースも統合されており、人間のようなタスク解決を促進する。
- 812の長期的で現実的な自然言語で記述されたタスクのベンチマークを提供し、タスク実行の機能的正確性を評価するメトリクスも用意されている。
- GPT-4などの大規模言語モデルを用いたベースラインエージェントの評価により、現在の技術では複雑なタスクの遂行が難しいことが明らかになり、能動的探索や失敗からの回復などの能力の不足が示唆された。
- WebArenaは、自律エージェントの開発に向けたリアルで再現性の高いテストベッドとして機能する。
各ウェブサイトには実データが取り込まれており、地図や電卓などのツールや外部知識ベースも統合されている。これにより、エージェントを現実世界のタスクに近い形で評価することが可能になる。
各ウェブサイトの実装にはオープンソースのフレームワークが使用されており、例えば、Eコマースサイトには、Magento、ソーシャルフォーラムにはPostmill、協調ソフトウェア開発にはGitLabが用いられている
ベンチマーク
WebArenaには、812のタスクからなるベンチマークが用意されている。
これらのタスクは、現実世界で人間が行うようなタスクを自然言語で記述したもので、タスクの機能的正確性を評価するメトリクスも提供されており、エージェントの実用的な能力を測ることができる。
ベースラインエージェント
WebArenaのベースラインエージェントとは、WebArena環境で評価されたリファレンスとなる自律エージェントのことを指し、以下の特徴を持っている。
- 大規模言語モデル(LLM)ベース
- プロンプトエンジニアリング
- エージェントにタスクを実行させるために、適切なプロンプトを設計する必要がある。
- プロンプトには、タスクの説明、現在のウェブページの情報、使用可能なアクションなどが含まれる。また、連鎖思考(chain-of-thought)と呼ばれる、推論のステップを明示的に含めるプロンプト手法も使用。
- アクションスペースとオブザベーションスペース
- エージェントは、クリックやタイピングなどの事前定義されたアクションを実行することで、ウェブページ上で操作を実行。
- また、現在のウェブページのURL、アクセシビリティツリー、過去のアクションなどの情報をオブザベーションとして受け取りり。
- 反復的なアクション生成
- エージェントは、オブザベーションとプロンプトに基づいて、LLMを使用して次のアクションを生成
- このプロセスを、タスクが完了するか、一定のステップ数に達するまで繰り返す。
- 機能的正確性の評価
- タスクの完了後、エージェントのパフォーマンスは、タスクの要件を満たしているかどうかに基づいて評価される。
- このため、各タスクには、期待される結果を確認するための専用の評価プログラムが用意されている。
ベースラインエージェントの実装には、直接アクション生成と連鎖思考を用いたアクション生成の2つのアプローチが採用されている。
直接アクション生成では、LLMが現在のオブザベーションから直接次のアクションを生成するのに対し、連鎖思考を用いたアプローチでは、タスクを解決するための推論ステップを明示的に生成してから、アクションを決定する。
エージェントのプロンプト
タスクの説明、現在のウェブページの情報、使用可能なアクションなどを含むプロンプトを使用。また、chain-of-thought(推論のステップを明示的に含めるプロンプト手法)も使用されている。
LLMエージェントの4つのデザインパターンとの比較
WebArenaのベースラインエージェントには、LLMエージェントの4つのデザインパターンのうち、以下の2つが当てはまりそう。
- Tool Use
- WebArenaには、地図や電卓、スクラッチパッドなどのツールが組み込まれており、エージェントはこれらを活用してタスクを効率的に解決することができる。
- Wikipedia等の外部ナレッジベースへのアクセスも可能
- Planning(計画立案と実行)
- chain-of-thoughtを用いたエージェントは、タスクを解決するための推論ステップを生成
- エージェントは生成したプランに基づいて実際にアクションを実行し、タスクを完了させる
ベースラインエージェントの評価と課題
論文では、GPT-4などの大規模言語モデルを用いたベースラインエージェントを評価。
しかし、GPT-4の成功率は14.41%と人間の78.24%に大きく及ばず、現在の技術では複雑なタスクの遂行が難しいことが明らかに。
WebArenaにおける自律エージェント開発の課題
- 能動的探索の欠如
- 現在の言語モデルは、与えられたプロンプトに基づいて受動的にタスクを実行することはできるが、自発的に環境を探索し、新しい知識を獲得する能力に欠けている
- 複雑なタスクを解決するためには、エージェントが自ら情報を収集し、仮説を立てて検証するような能動的な探索が必要。
- 失敗からの回復力の不足
- 現在のエージェントは、タスクの実行中にエラーが発生したり、期待通りの結果が得られなかったりした場合に、適切に対処することが難しい。
- 人間のようにフレキシブルに失敗から学び、別のアプローチを試すことができれば、タスクの成功率を大幅に向上できるはず。
- エージェントが自身の行動を監視し、必要に応じて修正する能力を身につけることが重要
- 観察の解釈の限界
- WebArenaの評価では、エージェントが観察から細かい情報を見落としたり、過去の入力を考慮しなかったりするケースが見られた。
- タスクを正しく遂行するためには、エージェントが環境からの情報を適切に理解し、文脈に応じて解釈する能力が不可欠。
- プランニングの洗練化
- 論文で使用されたプランニング手法は比較的シンプルなものであり、より洗練された手法の適用が求められる。
- 階層的プランニングや不確実性を考慮したプランニングなどを取り入れることで、エージェントはより複雑なタスクに対処できるようになるだろう。
- また、プランニングとツール使用やマルチエージェントコラボレーションを組み合わせることで、より強力なエージェントアーキテクチャを設計できる可能性がある
- マルチエージェントコラボレーションの欠如
- 現在のエージェントは、主に単独でタスクを実行するように設計されている。しかし、現実世界の多くのタスクは、複数の主体が協力することで効率的に解決できる。
- エージェント間のコミュニケーションや協調メカニズムの開発は、今後の重要な研究課題の一つ。
- 実世界環境の複雑さ
- WebArenaは現実のウェブ環境に近い設定だが、それでも実世界の複雑さをすべて捉えているわけではない。
- ユーザーの多様性や環境の変動性など、現実世界特有の課題にエージェントを適応させることが求められる。
おわり
能動的探索が行えるようになったら、Cypto AI Agentにも使えそう。
課題はどれもわかりみはある。LLMエージェントなアプリの開発をしてても、絶妙に指示やコンテキストを見落としていて、どう考慮させるのかは悩んでる。。
この辺りの課題に対して取り組んでる論文を次は読みたい