Destilação Estruturada de Capacidades de Agentes Web Permite Generalização

Resumo

Os LLMs de ponta conseguem navegar em sites complexos, mas seu custo e dependência de APIs de terceiros tornam a implantação local inviável. Apresentamos o conceito de Agente-como-Anotadores, uma estrutura que organiza a geração sintética de trajetórias para agentes web por analogia com funções humanas de anotação, substituindo o Designer de Tarefas, o Anotador e o Supervisor por componentes modulares de LLM. Utilizando o Gemini 3 Pro como professor, geramos 3.000 trajetórias em seis ambientes web e refinamos um estudante de 9 bilhões de parâmetros com aprendizado supervisionado puro nas 2.322 que passam no filtro de qualidade. O modelo resultante atinge 41,5% no WebArena, superando modelos proprietários como Claude 3.5 Sonnet (36,0%) e GPT-4o (31,5%) sob o mesmo protocolo de avaliação, e quase dobrando o melhor resultado anterior de código aberto (Go-Browse, 21,7%). As capacidades transferem-se para ambientes não vistos, com um ganho de 18,2 pontos percentuais no WorkArena L1 (uma plataforma empresarial nunca vista durante o treinamento) e melhorias consistentes em três benchmarks adicionais. Ablações confirmam que cada componente do pipeline contribui significativamente, sendo que a filtragem do Juiz, dicas de avaliação e rastros de raciocínio representam ganhos mensuráveis. Estes resultados demonstram que a síntese estruturada de trajetórias a partir de um único professor de ponta é suficiente para produzir agentes web competitivos e implantáveis localmente. Página do projeto: https://agent-as-annotators.github.io

English

Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io

Destilação Estruturada de Capacidades de Agentes Web Permite Generalização

Structured Distillation of Web Agent Capabilities Enables Generalization

Resumo

Support