Recon-Act: Um Sistema de Uso de Navegador Multiagente Autoevolutivo via Reconhecimento Web, Geração de Ferramentas e Execução de Tarefas

Resumo

Nos últimos anos, os modelos multimodais fizeram avanços notáveis e abriram caminho para agentes inteligentes de uso em navegadores. No entanto, ao resolver tarefas em páginas da web do mundo real em trajetórias de múltiplas interações e longo prazo, os agentes atuais ainda sofrem com sequenciamento de ações desordenado e excesso de tentativa e erro durante a execução. Este artigo apresenta o Recon-Act, uma estrutura multiagente de auto-evolução baseada no paradigma comportamental de Reconhecimento-Ação. O sistema é composto por uma Equipe de Reconhecimento e uma Equipe de Ação: a primeira realiza análise comparativa e geração de ferramentas, enquanto a segunda lida com a decomposição de intenções, orquestração de ferramentas e execução. Ao contrastar as trajetórias errôneas com as bem-sucedidas, a Equipe de Reconhecimento infere correções e as abstrai em uma noção unificada de ferramentas generalizadas, expressas como dicas ou códigos baseados em regras, e as registra no arquivo de ferramentas em tempo real. A Equipe de Ação re-infere o processo, agora capacitado com essas ferramentas direcionadas, estabelecendo assim um pipeline de treinamento em loop fechado de dados-ferramentas-ação-feedback. Seguindo o roteiro de implementação de 6 níveis proposto neste trabalho, atualmente alcançamos o Nível 3 (com intervenção humana limitada no loop). Aproveitando as ferramentas generalizadas obtidas por meio do reconhecimento, o Recon-Act melhora substancialmente a adaptabilidade a sites não vistos e a capacidade de resolução em tarefas de longo prazo, alcançando desempenho de ponta no desafiador conjunto de dados VisualWebArena.

English

Recent years, multimodal models have made remarkable strides and pave the way for intelligent browser use agents. However, when solving tasks on real world webpages in multi-turn, long-horizon trajectories, current agents still suffer from disordered action sequencing and excessive trial and error during execution. This paper introduces Recon-Act, a self-evolving multi-agent framework grounded in Reconnaissance-Action behavioral paradigm. The system comprises a Reconnaissance Team and an Action Team: the former conducts comparative analysis and tool generation, while the latter handles intent decomposition, tool orchestration, and execution. By contrasting the erroneous trajectories with successful ones, the Reconnaissance Team infers remedies, and abstracts them into a unified notion of generalized tools, either expressed as hints or as rule-based codes, and register to the tool archive in real time. The Action Team reinference the process empowered with these targeting tools, thus establishing a closed-loop training pipeline of data-tools-action-feedback. Following the 6 level implementation roadmap proposed in this work, we have currently reached Level 3 (with limited human-in-the-loop intervention). Leveraging generalized tools obtained through reconnaissance, Recon-Act substantially improves adaptability to unseen websites and solvability on long-horizon tasks, and achieves state-of-the-art performance on the challenging VisualWebArena dataset.

Recon-Act: Um Sistema de Uso de Navegador Multiagente Autoevolutivo via Reconhecimento Web, Geração de Ferramentas e Execução de Tarefas

Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

Resumo

Support