Recon-Act: Een Zelf-Evoluerend Multi-Agent Browsergebruikssysteem via Webverkenning, Toolgeneratie en Taakuitvoering
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
September 25, 2025
Auteurs: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI
Samenvatting
De afgelopen jaren hebben multimodale modellen opmerkelijke vooruitgang geboekt en de weg geëffend voor intelligente browsergebruiksagenten. Echter, bij het oplossen van taken op echte webpagina's in multi-turn, langetermijntrajecten, hebben huidige agenten nog steeds last van ongeordende actievolgordes en overmatig trial-and-error tijdens de uitvoering. Dit artikel introduceert Recon-Act, een zelf-evoluerend multi-agent raamwerk gebaseerd op het Reconnaissance-Action gedragsparadigma. Het systeem bestaat uit een Reconnaissance Team en een Action Team: het eerste voert vergelijkende analyses uit en genereert tools, terwijl het laatste zich bezighoudt met intentdecompositie, toolcoördinatie en uitvoering. Door foutieve trajecten te vergelijken met succesvolle, leidt het Reconnaissance Team remedies af en abstraheert deze naar een uniform begrip van gegeneraliseerde tools, uitgedrukt als hints of regelgebaseerde codes, en registreert deze in realtime in het toolarchief. Het Action Team herleidt het proces, ondersteund door deze gerichte tools, waardoor een gesloten trainingspijplijn van data-tools-actie-feedback wordt gevestigd. Volgens de 6-stappen implementatieroadmap die in dit werk wordt voorgesteld, hebben we momenteel niveau 3 bereikt (met beperkte menselijke tussenkomst). Door gebruik te maken van gegeneraliseerde tools verkregen via reconnaissance, verbetert Recon-Act aanzienlijk de aanpassingsvermogen aan onbekende websites en de oplosbaarheid van langetermijntaken, en behaalt het state-of-the-art prestaties op de uitdagende VisualWebArena dataset.
English
Recent years, multimodal models have made remarkable strides and pave the way
for intelligent browser use agents. However, when solving tasks on real world
webpages in multi-turn, long-horizon trajectories, current agents still suffer
from disordered action sequencing and excessive trial and error during
execution. This paper introduces Recon-Act, a self-evolving multi-agent
framework grounded in Reconnaissance-Action behavioral paradigm. The system
comprises a Reconnaissance Team and an Action Team: the former conducts
comparative analysis and tool generation, while the latter handles intent
decomposition, tool orchestration, and execution. By contrasting the erroneous
trajectories with successful ones, the Reconnaissance Team infers remedies, and
abstracts them into a unified notion of generalized tools, either expressed as
hints or as rule-based codes, and register to the tool archive in real time.
The Action Team reinference the process empowered with these targeting tools,
thus establishing a closed-loop training pipeline of
data-tools-action-feedback. Following the 6 level implementation roadmap
proposed in this work, we have currently reached Level 3 (with limited
human-in-the-loop intervention). Leveraging generalized tools obtained through
reconnaissance, Recon-Act substantially improves adaptability to unseen
websites and solvability on long-horizon tasks, and achieves state-of-the-art
performance on the challenging VisualWebArena dataset.