Recon-Act: Web偵察、ツール生成、およびタスク実行による自己進化型マルチエージェントブラウザ使用システム
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
September 25, 2025
著者: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI
要旨
近年、マルチモーダルモデルは著しい進歩を遂げ、インテリジェントなブラウザ使用エージェントの道を切り開いてきた。しかし、現実世界のウェブページ上での多ターンかつ長期的なタスク解決において、現在のエージェントは依然として行動順序の混乱や実行中の過剰な試行錯誤に悩まされている。本論文では、Reconnaissance-Action行動パラダイムに基づく自己進化型マルチエージェントフレームワークであるRecon-Actを紹介する。このシステムは、ReconnaissanceチームとActionチームで構成される。前者は比較分析とツール生成を行い、後者は意図の分解、ツールのオーケストレーション、および実行を担当する。Reconnaissanceチームは、誤った軌跡と成功した軌跡を対比することで修正策を推論し、それらをヒントまたはルールベースのコードとして表現される汎用ツールの統一概念に抽象化し、リアルタイムでツールアーカイブに登録する。Actionチームは、これらのターゲットツールを活用してプロセスを再推論し、データ-ツール-行動-フィードバックの閉ループトレーニングパイプラインを確立する。本論文で提案された6段階の実装ロードマップに従い、現在は第3段階(限定的な人間介入)に到達している。Reconnaissanceを通じて得られた汎用ツールを活用することで、Recon-Actは未見のウェブサイトへの適応性と長期的タスクの解決能力を大幅に向上させ、VisualWebArenaデータセットにおいて最先端の性能を達成している。
English
Recent years, multimodal models have made remarkable strides and pave the way
for intelligent browser use agents. However, when solving tasks on real world
webpages in multi-turn, long-horizon trajectories, current agents still suffer
from disordered action sequencing and excessive trial and error during
execution. This paper introduces Recon-Act, a self-evolving multi-agent
framework grounded in Reconnaissance-Action behavioral paradigm. The system
comprises a Reconnaissance Team and an Action Team: the former conducts
comparative analysis and tool generation, while the latter handles intent
decomposition, tool orchestration, and execution. By contrasting the erroneous
trajectories with successful ones, the Reconnaissance Team infers remedies, and
abstracts them into a unified notion of generalized tools, either expressed as
hints or as rule-based codes, and register to the tool archive in real time.
The Action Team reinference the process empowered with these targeting tools,
thus establishing a closed-loop training pipeline of
data-tools-action-feedback. Following the 6 level implementation roadmap
proposed in this work, we have currently reached Level 3 (with limited
human-in-the-loop intervention). Leveraging generalized tools obtained through
reconnaissance, Recon-Act substantially improves adaptability to unseen
websites and solvability on long-horizon tasks, and achieves state-of-the-art
performance on the challenging VisualWebArena dataset.