ChatPaper.aiChatPaper

Recon-Act : Un système multi-agent auto-évolutif d'utilisation de navigateur via la reconnaissance web, la génération d'outils et l'exécution de tâches

Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

September 25, 2025
papers.authors: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI

papers.abstract

Ces dernières années, les modèles multimodaux ont réalisé des progrès remarquables et ouvert la voie à des agents intelligents pour l'utilisation des navigateurs. Cependant, lorsqu'il s'agit de résoudre des tâches sur des pages web réelles dans des trajectoires multi-tours et à long terme, les agents actuels souffrent encore d'une séquence d'actions désordonnée et d'un excès d'essais et d'erreurs lors de l'exécution. Cet article présente Recon-Act, un cadre multi-agent auto-évolutif basé sur le paradigme comportemental Reconnaissance-Action. Le système comprend une Équipe de Reconnaissance et une Équipe d'Action : la première effectue une analyse comparative et génère des outils, tandis que la seconde gère la décomposition des intentions, l'orchestration des outils et l'exécution. En comparant les trajectoires erronées avec les trajectoires réussies, l'Équipe de Reconnaissance déduit des remèdes, les abstrait en une notion unifiée d'outils généralisés, exprimés soit sous forme d'indices, soit sous forme de codes basés sur des règles, et les enregistre en temps réel dans l'archive d'outils. L'Équipe d'Action réinfère le processus en s'appuyant sur ces outils ciblés, établissant ainsi une boucle de formation en circuit fermé de données-outils-action-feedback. Suivant la feuille de route en 6 niveaux proposée dans ce travail, nous avons actuellement atteint le Niveau 3 (avec une intervention humaine limitée dans la boucle). En exploitant les outils généralisés obtenus grâce à la reconnaissance, Recon-Act améliore considérablement l'adaptabilité aux sites web inconnus et la résolubilité des tâches à long terme, et obtient des performances de pointe sur le dataset difficile VisualWebArena.
English
Recent years, multimodal models have made remarkable strides and pave the way for intelligent browser use agents. However, when solving tasks on real world webpages in multi-turn, long-horizon trajectories, current agents still suffer from disordered action sequencing and excessive trial and error during execution. This paper introduces Recon-Act, a self-evolving multi-agent framework grounded in Reconnaissance-Action behavioral paradigm. The system comprises a Reconnaissance Team and an Action Team: the former conducts comparative analysis and tool generation, while the latter handles intent decomposition, tool orchestration, and execution. By contrasting the erroneous trajectories with successful ones, the Reconnaissance Team infers remedies, and abstracts them into a unified notion of generalized tools, either expressed as hints or as rule-based codes, and register to the tool archive in real time. The Action Team reinference the process empowered with these targeting tools, thus establishing a closed-loop training pipeline of data-tools-action-feedback. Following the 6 level implementation roadmap proposed in this work, we have currently reached Level 3 (with limited human-in-the-loop intervention). Leveraging generalized tools obtained through reconnaissance, Recon-Act substantially improves adaptability to unseen websites and solvability on long-horizon tasks, and achieves state-of-the-art performance on the challenging VisualWebArena dataset.
PDF142September 26, 2025