Recon-Act: Un Sistema Multi-Agente Auto-Evolvente per l'Utilizzo del Browser tramite Ricognizione Web, Generazione di Strumenti ed Esecuzione di Attività
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
September 25, 2025
Autori: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI
Abstract
Negli ultimi anni, i modelli multimodali hanno compiuto progressi significativi, aprendo la strada a agenti intelligenti per l'uso del browser. Tuttavia, quando si tratta di risolvere compiti su pagine web reali in traiettorie multi-turn e a lungo termine, gli agenti attuali continuano a soffrire di sequenze di azioni disordinate e di un eccessivo ricorso a tentativi ed errori durante l'esecuzione. Questo articolo introduce Recon-Act, un framework multi-agente auto-evolvente basato sul paradigma comportamentale Ricognizione-Azione. Il sistema è composto da un Team di Ricognizione e un Team di Azione: il primo conduce analisi comparative e genera strumenti, mentre il secondo gestisce la scomposizione delle intenzioni, l'orchestrazione degli strumenti e l'esecuzione. Confrontando le traiettorie errate con quelle di successo, il Team di Ricognizione deduce rimedi e li astrae in una nozione unificata di strumenti generalizzati, espressi come suggerimenti o codici basati su regole, e li registra in tempo reale nell'archivio degli strumenti. Il Team di Azione rielabora il processo potenziato da questi strumenti mirati, stabilendo così una pipeline di addestramento a ciclo chiuso di dati-strumenti-azione-feedback. Seguendo la roadmap di implementazione a 6 livelli proposta in questo lavoro, abbiamo attualmente raggiunto il Livello 3 (con un intervento umano limitato in-the-loop). Sfruttando gli strumenti generalizzati ottenuti attraverso la ricognizione, Recon-Act migliora sostanzialmente l'adattabilità a siti web non visti e la risolvibilità di compiti a lungo termine, raggiungendo prestazioni all'avanguardia sul complesso dataset VisualWebArena.
English
Recent years, multimodal models have made remarkable strides and pave the way
for intelligent browser use agents. However, when solving tasks on real world
webpages in multi-turn, long-horizon trajectories, current agents still suffer
from disordered action sequencing and excessive trial and error during
execution. This paper introduces Recon-Act, a self-evolving multi-agent
framework grounded in Reconnaissance-Action behavioral paradigm. The system
comprises a Reconnaissance Team and an Action Team: the former conducts
comparative analysis and tool generation, while the latter handles intent
decomposition, tool orchestration, and execution. By contrasting the erroneous
trajectories with successful ones, the Reconnaissance Team infers remedies, and
abstracts them into a unified notion of generalized tools, either expressed as
hints or as rule-based codes, and register to the tool archive in real time.
The Action Team reinference the process empowered with these targeting tools,
thus establishing a closed-loop training pipeline of
data-tools-action-feedback. Following the 6 level implementation roadmap
proposed in this work, we have currently reached Level 3 (with limited
human-in-the-loop intervention). Leveraging generalized tools obtained through
reconnaissance, Recon-Act substantially improves adaptability to unseen
websites and solvability on long-horizon tasks, and achieves state-of-the-art
performance on the challenging VisualWebArena dataset.