La distillation structurée des capacités des agents web permet la généralisation

Résumé

Les LLM de pointe peuvent naviguer sur des sites web complexes, mais leur coût et leur dépendance aux API tierces rendent leur déploiement local peu pratique. Nous présentons Agent-as-Annotators, un cadre qui structure la génération de trajectoires synthétiques pour les agents web en analogie avec les rôles d'annotation humaine, remplaçant le Concepteur de tâches, l'Annotateur et le Superviseur par des composants LLM modulaires. En utilisant Gemini 3 Pro comme enseignant, nous générons 3 000 trajectoires sur six environnements web et affinons un étudiant de 9 milliards de paramètres par apprentissage supervisé pur sur les 2 322 qui passent le filtrage qualité. Le modèle résultant atteint 41,5 % sur WebArena, surpassant les modèles propriétaires tels que Claude 3.5 Sonnet (36,0 %) et GPT-4o (31,5 %) sous le même protocole d'évaluation, et double presque le précédent meilleur résultat open-weight (Go-Browse, 21,7 %). Les capacités se transfèrent à des environnements non vus, avec un gain de 18,2 points de pourcentage sur WorkArena L1 (une plateforme d'entreprise jamais vue pendant l'entraînement) et des améliorations constantes sur trois benchmarks supplémentaires. Les ablations confirment que chaque composant de la pipeline contribue significativement, le filtrage par le Juge, les indices d'évaluation et les traces de raisonnement expliquant chacun des gains mesurables. Ces résultats démontrent que la synthèse structurée de trajectoires par un seul enseignant de pointe suffit à produire des agents web compétitifs et déployables localement. Page du projet : https://agent-as-annotators.github.io

English

Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io

La distillation structurée des capacités des agents web permet la généralisation

Structured Distillation of Web Agent Capabilities Enables Generalization

Résumé

Support