ChatPaper.aiChatPaper

Recon-Act: Ein selbstentwickelndes Multi-Agenten-Browser-System durch Web-Rekonnaissance, Werkzeuggenerierung und Aufgabenausführung

Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

September 25, 2025
papers.authors: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI

papers.abstract

In den letzten Jahren haben multimodale Modelle bemerkenswerte Fortschritte gemacht und den Weg für intelligente Browser-Nutzungsagenten geebnet. Bei der Lösung von Aufgaben auf realen Webseiten in mehrstufigen, langfristigen Trajektorien leiden aktuelle Agenten jedoch immer noch unter ungeordneten Aktionssequenzen und übermäßigem Ausprobieren während der Ausführung. Dieses Paper stellt Recon-Act vor, ein sich selbst weiterentwickelndes Multi-Agenten-Framework, das auf dem Reconnaissance-Action-Verhaltensparadigma basiert. Das System besteht aus einem Reconnaissance-Team und einem Action-Team: Ersteres führt vergleichende Analysen und Tool-Generierung durch, während Letzteres die Intent-Zerlegung, Tool-Orchestrierung und Ausführung übernimmt. Durch den Vergleich fehlerhafter Trajektorien mit erfolgreichen, leitet das Reconnaissance-Team Abhilfemaßnahmen ab und abstrahiert sie zu einem einheitlichen Konzept generalisierter Tools, die entweder als Hinweise oder als regelbasierte Codes ausgedrückt und in Echtzeit im Tool-Archiv registriert werden. Das Action-Team führt den Prozess erneut durch, unterstützt durch diese zielgerichteten Tools, und etabliert so eine geschlossene Trainingspipeline von Daten-Tools-Aktion-Feedback. Entsprechend der in dieser Arbeit vorgeschlagenen 6-stufigen Implementierungs-Roadmap haben wir derzeit Stufe 3 erreicht (mit begrenzter menschlicher Intervention). Durch die Nutzung generalisierter Tools, die durch Reconnaissance gewonnen wurden, verbessert Recon-Act die Anpassungsfähigkeit an unbekannte Webseiten und die Lösbarkeit langfristiger Aufgaben erheblich und erzielt state-of-the-art Leistungen auf dem anspruchsvollen VisualWebArena-Datensatz.
English
Recent years, multimodal models have made remarkable strides and pave the way for intelligent browser use agents. However, when solving tasks on real world webpages in multi-turn, long-horizon trajectories, current agents still suffer from disordered action sequencing and excessive trial and error during execution. This paper introduces Recon-Act, a self-evolving multi-agent framework grounded in Reconnaissance-Action behavioral paradigm. The system comprises a Reconnaissance Team and an Action Team: the former conducts comparative analysis and tool generation, while the latter handles intent decomposition, tool orchestration, and execution. By contrasting the erroneous trajectories with successful ones, the Reconnaissance Team infers remedies, and abstracts them into a unified notion of generalized tools, either expressed as hints or as rule-based codes, and register to the tool archive in real time. The Action Team reinference the process empowered with these targeting tools, thus establishing a closed-loop training pipeline of data-tools-action-feedback. Following the 6 level implementation roadmap proposed in this work, we have currently reached Level 3 (with limited human-in-the-loop intervention). Leveraging generalized tools obtained through reconnaissance, Recon-Act substantially improves adaptability to unseen websites and solvability on long-horizon tasks, and achieves state-of-the-art performance on the challenging VisualWebArena dataset.
PDF142September 26, 2025