Recon-Act: Un sistema de uso de navegador multiagente autoevolutivo mediante reconocimiento web, generación de herramientas y ejecución de tareas

Resumen

En los últimos años, los modelos multimodales han logrado avances notables y han allanado el camino para el uso de agentes inteligentes en navegadores. Sin embargo, al resolver tareas en páginas web del mundo real en trayectorias de múltiples turnos y largo horizonte, los agentes actuales aún enfrentan problemas de secuenciación desordenada de acciones y un exceso de ensayo y error durante la ejecución. Este artículo presenta Recon-Act, un marco de trabajo multiagente auto-evolutivo basado en el paradigma de comportamiento Reconocimiento-Acción. El sistema consta de un Equipo de Reconocimiento y un Equipo de Acción: el primero realiza análisis comparativos y generación de herramientas, mientras que el segundo maneja la descomposición de intenciones, la orquestación de herramientas y la ejecución. Al contrastar las trayectorias erróneas con las exitosas, el Equipo de Reconocimiento infiere remedios y los abstrae en una noción unificada de herramientas generalizadas, ya sea expresadas como sugerencias o como códigos basados en reglas, y las registra en el archivo de herramientas en tiempo real. El Equipo de Acción reinfiere el proceso potenciado con estas herramientas específicas, estableciendo así un ciclo cerrado de entrenamiento de datos-herramientas-acción-retroalimentación. Siguiendo la hoja de ruta de implementación de 6 niveles propuesta en este trabajo, actualmente hemos alcanzado el Nivel 3 (con intervención limitada de humanos en el ciclo). Aprovechando las herramientas generalizadas obtenidas mediante el reconocimiento, Recon-Act mejora sustancialmente la adaptabilidad a sitios web no vistos y la capacidad de resolución en tareas de largo horizonte, logrando un rendimiento de vanguardia en el desafiante conjunto de datos VisualWebArena.

English

Recent years, multimodal models have made remarkable strides and pave the way for intelligent browser use agents. However, when solving tasks on real world webpages in multi-turn, long-horizon trajectories, current agents still suffer from disordered action sequencing and excessive trial and error during execution. This paper introduces Recon-Act, a self-evolving multi-agent framework grounded in Reconnaissance-Action behavioral paradigm. The system comprises a Reconnaissance Team and an Action Team: the former conducts comparative analysis and tool generation, while the latter handles intent decomposition, tool orchestration, and execution. By contrasting the erroneous trajectories with successful ones, the Reconnaissance Team infers remedies, and abstracts them into a unified notion of generalized tools, either expressed as hints or as rule-based codes, and register to the tool archive in real time. The Action Team reinference the process empowered with these targeting tools, thus establishing a closed-loop training pipeline of data-tools-action-feedback. Following the 6 level implementation roadmap proposed in this work, we have currently reached Level 3 (with limited human-in-the-loop intervention). Leveraging generalized tools obtained through reconnaissance, Recon-Act substantially improves adaptability to unseen websites and solvability on long-horizon tasks, and achieves state-of-the-art performance on the challenging VisualWebArena dataset.

Recon-Act: Un sistema de uso de navegador multiagente autoevolutivo mediante reconocimiento web, generación de herramientas y ejecución de tareas

Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

Resumen

Support