Структурированное дистиллирование возможностей веб-агентов обеспечивает их обобщающую способность

Аннотация

Продвинутые большие языковые модели способны ориентироваться в сложных веб-сайтах, однако их стоимость и зависимость от сторонних API делают локальное развертывание непрактичным. Мы представляем фреймворк «Агент-как-Аннотатор», который структурирует генерацию синтетических траекторий для веб-агентов по аналогии с ролями человека-аннотатора, заменяя Дизайнера задач, Аннотатора и Супервизора модульными компонентами на основе LLM. Используя Gemini 3 Pro в качестве «учителя», мы генерируем 3000 траекторий в шести веб-средах и дообучаем «ученика» с 9 миллиардами параметров методом чистого обучения с учителем на 2322 траекториях, прошедших фильтрацию качества. Полученная модель достигает результата в 41,5% на WebArena, превосходя закрытые модели, такие как Claude 3.5 Sonnet (36,0%) и GPT-4o (31,5%), при одинаковом протоколе оценки, и почти удваивает предыдущий лучший результат для моделей с открытыми весами (Go-Browse, 21,7%). Способности модели переносятся на неизвестные среды, демонстрируя прирост на 18,2 процентных пункта на WorkArena L1 (корпоративной платформе, не встречавшейся во время обучения) и стабильное улучшение на трех дополнительных бенчмарках. Абляционные исследования подтверждают значительный вклад каждого компонента конвейера: фильтрация Модулем оценки, подсказки для оценки и трассы рассуждений вносят измеримый вклад в результат. Эти результаты демонстрируют, что структурированного синтеза траекторий от одной передовой модели-учителя достаточно для создания конкурентоспособных, локально развертываемых веб-агентов. Страница проекта: https://agent-as-annotators.github.io

English

Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io

Структурированное дистиллирование возможностей веб-агентов обеспечивает их обобщающую способность

Structured Distillation of Web Agent Capabilities Enables Generalization

Аннотация

Support