Recon-Act: Саморазвивающаяся мультиагентная система для работы в браузере через веб-разведку, генерацию инструментов и выполнение задач
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
September 25, 2025
Авторы: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
cs.AI
Аннотация
В последние годы мультимодальные модели достигли значительных успехов и проложили путь для создания интеллектуальных агентов, работающих в браузерах. Однако при решении задач на реальных веб-страницах в многошаговых, долгосрочных сценариях текущие агенты всё ещё сталкиваются с проблемами, такими как несогласованная последовательность действий и чрезмерное количество проб и ошибок в процессе выполнения. В данной статье представлен Recon-Act — саморазвивающийся мультиагентный фреймворк, основанный на парадигме поведения "Разведка-Действие". Система состоит из Команды разведки и Команды действий: первая проводит сравнительный анализ и генерацию инструментов, а вторая занимается декомпозицией намерений, оркестрацией инструментов и их выполнением. Сравнивая ошибочные траектории с успешными, Команда разведки выводит способы исправления, абстрагирует их в унифицированное понятие обобщённых инструментов, выраженных либо в виде подсказок, либо в виде правил, и регистрирует их в архиве инструментов в реальном времени. Команда действий пересматривает процесс, используя эти целевые инструменты, тем самым создавая замкнутый цикл обучения по схеме "данные-инструменты-действия-обратная связь". Следуя предложенной в работе дорожной карте из 6 уровней реализации, мы в настоящее время достигли Уровня 3 (с ограниченным вмешательством человека). Благодаря обобщённым инструментам, полученным в процессе разведки, Recon-Act значительно повышает адаптируемость к новым веб-сайтам и способность решать долгосрочные задачи, демонстрируя наилучшие результаты на сложном наборе данных VisualWebArena.
English
Recent years, multimodal models have made remarkable strides and pave the way
for intelligent browser use agents. However, when solving tasks on real world
webpages in multi-turn, long-horizon trajectories, current agents still suffer
from disordered action sequencing and excessive trial and error during
execution. This paper introduces Recon-Act, a self-evolving multi-agent
framework grounded in Reconnaissance-Action behavioral paradigm. The system
comprises a Reconnaissance Team and an Action Team: the former conducts
comparative analysis and tool generation, while the latter handles intent
decomposition, tool orchestration, and execution. By contrasting the erroneous
trajectories with successful ones, the Reconnaissance Team infers remedies, and
abstracts them into a unified notion of generalized tools, either expressed as
hints or as rule-based codes, and register to the tool archive in real time.
The Action Team reinference the process empowered with these targeting tools,
thus establishing a closed-loop training pipeline of
data-tools-action-feedback. Following the 6 level implementation roadmap
proposed in this work, we have currently reached Level 3 (with limited
human-in-the-loop intervention). Leveraging generalized tools obtained through
reconnaissance, Recon-Act substantially improves adaptability to unseen
websites and solvability on long-horizon tasks, and achieves state-of-the-art
performance on the challenging VisualWebArena dataset.