Recon-Act: Un Sistema Multi-Agente Auto-Evolvente per l'Utilizzo del Browser tramite Ricognizione Web, Generazione di Strumenti ed Esecuzione di Attività

Abstract

Negli ultimi anni, i modelli multimodali hanno compiuto progressi significativi, aprendo la strada a agenti intelligenti per l'uso del browser. Tuttavia, quando si tratta di risolvere compiti su pagine web reali in traiettorie multi-turn e a lungo termine, gli agenti attuali continuano a soffrire di sequenze di azioni disordinate e di un eccessivo ricorso a tentativi ed errori durante l'esecuzione. Questo articolo introduce Recon-Act, un framework multi-agente auto-evolvente basato sul paradigma comportamentale Ricognizione-Azione. Il sistema è composto da un Team di Ricognizione e un Team di Azione: il primo conduce analisi comparative e genera strumenti, mentre il secondo gestisce la scomposizione delle intenzioni, l'orchestrazione degli strumenti e l'esecuzione. Confrontando le traiettorie errate con quelle di successo, il Team di Ricognizione deduce rimedi e li astrae in una nozione unificata di strumenti generalizzati, espressi come suggerimenti o codici basati su regole, e li registra in tempo reale nell'archivio degli strumenti. Il Team di Azione rielabora il processo potenziato da questi strumenti mirati, stabilendo così una pipeline di addestramento a ciclo chiuso di dati-strumenti-azione-feedback. Seguendo la roadmap di implementazione a 6 livelli proposta in questo lavoro, abbiamo attualmente raggiunto il Livello 3 (con un intervento umano limitato in-the-loop). Sfruttando gli strumenti generalizzati ottenuti attraverso la ricognizione, Recon-Act migliora sostanzialmente l'adattabilità a siti web non visti e la risolvibilità di compiti a lungo termine, raggiungendo prestazioni all'avanguardia sul complesso dataset VisualWebArena.

English

Recent years, multimodal models have made remarkable strides and pave the way for intelligent browser use agents. However, when solving tasks on real world webpages in multi-turn, long-horizon trajectories, current agents still suffer from disordered action sequencing and excessive trial and error during execution. This paper introduces Recon-Act, a self-evolving multi-agent framework grounded in Reconnaissance-Action behavioral paradigm. The system comprises a Reconnaissance Team and an Action Team: the former conducts comparative analysis and tool generation, while the latter handles intent decomposition, tool orchestration, and execution. By contrasting the erroneous trajectories with successful ones, the Reconnaissance Team infers remedies, and abstracts them into a unified notion of generalized tools, either expressed as hints or as rule-based codes, and register to the tool archive in real time. The Action Team reinference the process empowered with these targeting tools, thus establishing a closed-loop training pipeline of data-tools-action-feedback. Following the 6 level implementation roadmap proposed in this work, we have currently reached Level 3 (with limited human-in-the-loop intervention). Leveraging generalized tools obtained through reconnaissance, Recon-Act substantially improves adaptability to unseen websites and solvability on long-horizon tasks, and achieves state-of-the-art performance on the challenging VisualWebArena dataset.

Recon-Act: Un Sistema Multi-Agente Auto-Evolvente per l'Utilizzo del Browser tramite Ricognizione Web, Generazione di Strumenti ed Esecuzione di Attività

Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

Abstract

Support