La destilación estructurada de capacidades de agentes web permite la generalización

Resumen

Los LLMs de vanguardia pueden navegar por sitios web complejos, pero su costo y dependencia de APIs de terceros hacen que su despliegue local sea impracticable. Presentamos Agent-as-Annotators, un marco que estructura la generación sintética de trayectorias para agentes web por analogía con los roles de anotación humana, reemplazando al Diseñador de Tareas, Anotador y Supervisor con componentes modulares de LLM. Utilizando Gemini 3 Pro como modelo maestro, generamos 3,000 trayectorias en seis entornos web y ajustamos un modelo estudiante de 9B parámetros con aprendizaje supervisado puro sobre las 2,322 que superan el filtro de calidad. El modelo resultante alcanza un 41.5% en WebArena, superando a modelos propietarios como Claude 3.5 Sonnet (36.0%) y GPT-4o (31.5%) bajo el mismo protocolo de evaluación, y casi duplicando el mejor resultado anterior de pesos abiertos (Go-Browse, 21.7%). Las capacidades se transfieren a entornos no vistos, con una ganancia de 18.2 puntos porcentuales en WorkArena L1 (una plataforma empresarial nunca vista durante el entrenamiento) y mejoras consistentes en tres benchmarks adicionales. Las ablaciones confirman que cada componente de la pipeline contribuye significativamente, donde el filtrado del Juez, las pistas de evaluación y los rastros de razonamiento representan ganancias medibles. Estos resultados demuestran que la síntesis estructurada de trayectorias a partir de un único modelo maestro de vanguardia es suficiente para producir agentes web competitivos y desplegables localmente. Página del proyecto: https://agent-as-annotators.github.io

English

Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io

La destilación estructurada de capacidades de agentes web permite la generalización

Structured Distillation of Web Agent Capabilities Enables Generalization

Resumen

Support