Recon-Act: Um Sistema de Uso de Navegador Multiagente Autoevolutivo via Reconhecimento Web, Geração de Ferramentas e Execução de Tarefas
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
September 25, 2025
Autores: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI
Resumo
Nos últimos anos, os modelos multimodais fizeram avanços notáveis e abriram caminho para agentes inteligentes de uso em navegadores. No entanto, ao resolver tarefas em páginas da web do mundo real em trajetórias de múltiplas interações e longo prazo, os agentes atuais ainda sofrem com sequenciamento de ações desordenado e excesso de tentativa e erro durante a execução. Este artigo apresenta o Recon-Act, uma estrutura multiagente de auto-evolução baseada no paradigma comportamental de Reconhecimento-Ação. O sistema é composto por uma Equipe de Reconhecimento e uma Equipe de Ação: a primeira realiza análise comparativa e geração de ferramentas, enquanto a segunda lida com a decomposição de intenções, orquestração de ferramentas e execução. Ao contrastar as trajetórias errôneas com as bem-sucedidas, a Equipe de Reconhecimento infere correções e as abstrai em uma noção unificada de ferramentas generalizadas, expressas como dicas ou códigos baseados em regras, e as registra no arquivo de ferramentas em tempo real. A Equipe de Ação re-infere o processo, agora capacitado com essas ferramentas direcionadas, estabelecendo assim um pipeline de treinamento em loop fechado de dados-ferramentas-ação-feedback. Seguindo o roteiro de implementação de 6 níveis proposto neste trabalho, atualmente alcançamos o Nível 3 (com intervenção humana limitada no loop). Aproveitando as ferramentas generalizadas obtidas por meio do reconhecimento, o Recon-Act melhora substancialmente a adaptabilidade a sites não vistos e a capacidade de resolução em tarefas de longo prazo, alcançando desempenho de ponta no desafiador conjunto de dados VisualWebArena.
English
Recent years, multimodal models have made remarkable strides and pave the way
for intelligent browser use agents. However, when solving tasks on real world
webpages in multi-turn, long-horizon trajectories, current agents still suffer
from disordered action sequencing and excessive trial and error during
execution. This paper introduces Recon-Act, a self-evolving multi-agent
framework grounded in Reconnaissance-Action behavioral paradigm. The system
comprises a Reconnaissance Team and an Action Team: the former conducts
comparative analysis and tool generation, while the latter handles intent
decomposition, tool orchestration, and execution. By contrasting the erroneous
trajectories with successful ones, the Reconnaissance Team infers remedies, and
abstracts them into a unified notion of generalized tools, either expressed as
hints or as rule-based codes, and register to the tool archive in real time.
The Action Team reinference the process empowered with these targeting tools,
thus establishing a closed-loop training pipeline of
data-tools-action-feedback. Following the 6 level implementation roadmap
proposed in this work, we have currently reached Level 3 (with limited
human-in-the-loop intervention). Leveraging generalized tools obtained through
reconnaissance, Recon-Act substantially improves adaptability to unseen
websites and solvability on long-horizon tasks, and achieves state-of-the-art
performance on the challenging VisualWebArena dataset.