Recon-Act: Un sistema de uso de navegador multiagente autoevolutivo mediante reconocimiento web, generación de herramientas y ejecución de tareas
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
September 25, 2025
Autores: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI
Resumen
En los últimos años, los modelos multimodales han logrado avances notables y han allanado el camino para el uso de agentes inteligentes en navegadores. Sin embargo, al resolver tareas en páginas web del mundo real en trayectorias de múltiples turnos y largo horizonte, los agentes actuales aún enfrentan problemas de secuenciación desordenada de acciones y un exceso de ensayo y error durante la ejecución. Este artículo presenta Recon-Act, un marco de trabajo multiagente auto-evolutivo basado en el paradigma de comportamiento Reconocimiento-Acción. El sistema consta de un Equipo de Reconocimiento y un Equipo de Acción: el primero realiza análisis comparativos y generación de herramientas, mientras que el segundo maneja la descomposición de intenciones, la orquestación de herramientas y la ejecución. Al contrastar las trayectorias erróneas con las exitosas, el Equipo de Reconocimiento infiere remedios y los abstrae en una noción unificada de herramientas generalizadas, ya sea expresadas como sugerencias o como códigos basados en reglas, y las registra en el archivo de herramientas en tiempo real. El Equipo de Acción reinfiere el proceso potenciado con estas herramientas específicas, estableciendo así un ciclo cerrado de entrenamiento de datos-herramientas-acción-retroalimentación. Siguiendo la hoja de ruta de implementación de 6 niveles propuesta en este trabajo, actualmente hemos alcanzado el Nivel 3 (con intervención limitada de humanos en el ciclo). Aprovechando las herramientas generalizadas obtenidas mediante el reconocimiento, Recon-Act mejora sustancialmente la adaptabilidad a sitios web no vistos y la capacidad de resolución en tareas de largo horizonte, logrando un rendimiento de vanguardia en el desafiante conjunto de datos VisualWebArena.
English
Recent years, multimodal models have made remarkable strides and pave the way
for intelligent browser use agents. However, when solving tasks on real world
webpages in multi-turn, long-horizon trajectories, current agents still suffer
from disordered action sequencing and excessive trial and error during
execution. This paper introduces Recon-Act, a self-evolving multi-agent
framework grounded in Reconnaissance-Action behavioral paradigm. The system
comprises a Reconnaissance Team and an Action Team: the former conducts
comparative analysis and tool generation, while the latter handles intent
decomposition, tool orchestration, and execution. By contrasting the erroneous
trajectories with successful ones, the Reconnaissance Team infers remedies, and
abstracts them into a unified notion of generalized tools, either expressed as
hints or as rule-based codes, and register to the tool archive in real time.
The Action Team reinference the process empowered with these targeting tools,
thus establishing a closed-loop training pipeline of
data-tools-action-feedback. Following the 6 level implementation roadmap
proposed in this work, we have currently reached Level 3 (with limited
human-in-the-loop intervention). Leveraging generalized tools obtained through
reconnaissance, Recon-Act substantially improves adaptability to unseen
websites and solvability on long-horizon tasks, and achieves state-of-the-art
performance on the challenging VisualWebArena dataset.