Strukturierte Destillation von Fähigkeiten Web-basierter Agenten ermöglicht Generalisierung

Zusammenfassung

Frontier-LLMs können komplexe Websites navigieren, doch ihre Kosten und Abhängigkeit von Drittanbieter-APIs machen einen lokalen Einsatz unpraktikabel. Wir stellen Agent-as-Annotators vor, ein Framework, das die synthetische Generierung von Trajektorien für Web-Agenten strukturiert, analog zu menschlichen Annotatorenrollen. Es ersetzt den Task-Designer, Annotator und Supervisor durch modulare LLM-Komponenten. Mithilfe von Gemini 3 Pro als Lehrer generieren wir 3.000 Trajektorien in sechs Web-Umgebungen und feintunen einen 9-Milliarden-Parameter-Studenten mittels reinem supervised Learning auf den 2.322 Trajektorien, die das Qualitätsfiltering bestehen. Das resultierende Modell erzielt 41,5 % auf WebArena und übertrifft damit Closed-Source-Modelle wie Claude 3.5 Sonnet (36,0 %) und GPT-4o (31,5 %) unter dem gleichen Evaluierungsprotokoll. Es verdoppelt nahezu das bisher beste Open-Weight-Ergebnis (Go-Browse, 21,7 %). Die Fähigkeiten übertragen sich auf ungesehene Umgebungen, mit einem Zuwachs von 18,2 Prozentpunkten auf WorkArena L1 (eine während des Trainings ungesehene Unternehmensplattform) und konsistenten Verbesserungen in drei weiteren Benchmarks. Ablationstudien bestätigen, dass jede Pipeline-Komponente einen bedeutenden Beitrag leistet, wobei Judge-Filtering, Evaluierungshinweise und Reasoning-Traces jeweils messbare Gewinne bewirken. Diese Ergebnisse zeigen, dass strukturierte Trajektoriensynthese mit einem einzigen Frontier-Lehrer-Modell ausreicht, um wettbewerbsfähige, lokal einsetzbare Web-Agenten zu erzeugen. Projektseite: https://agent-as-annotators.github.io

English

Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io

Strukturierte Destillation von Fähigkeiten Web-basierter Agenten ermöglicht Generalisierung

Structured Distillation of Web Agent Capabilities Enables Generalization

Zusammenfassung

Support