Distillazione Strutturata delle Capacità degli Agenti Web Abilita la Generalizzazione

Abstract

I modelli linguistici all'avanguardia sono in grado di navigare siti web complessi, ma il loro costo e la dipendenza da API di terze parti rendono impraticabile un deployment locale. Introduciamo *Agent-as-Annotators*, un framework che struttura la generazione di traiettorie sintetiche per agenti web per analogia con i ruoli dell'annotazione umana, sostituendo il Progettista del Compito, l'Annotatore e il Supervisore con componenti modulari di LLM. Utilizzando Gemini 3 Pro come "insegnante", generiamo 3.000 traiettorie in sei ambienti web e addestriamo per fine-tuning uno "studente" da 9 miliardi di parametri con puro apprendimento supervisionato sulle 2.322 traiettorie che superano il filtraggio qualitativo. Il modello risultante raggiunge il 41,5% su WebArena, superando modelli proprietari come Claude 3.5 Sonnet (36,0%) e GPT-4o (31,5%) sotto lo stesso protocollo di valutazione, e quasi raddoppiando il precedente miglior risultato open-weight (Go-Browse, 21,7%). Le capacità si trasferiscono ad ambienti non visti, con un guadagno di 18,2 punti percentuali su WorkArena L1 (una piattaforma aziendale mai incontrata durante l'addestramento) e miglioramenti consistenti su tre benchmark aggiuntivi. Le ablazioni confermano che ogni componente della pipeline contribuisce in modo significativo, con il filtraggio del Giudice, i suggerimenti di valutazione e le tracce di ragionamento che spiegano ciascuno guadagni misurabili. Questi risultati dimostrano che la sintesi strutturata di traiettorie da un singolo insegnante all'avanguardia è sufficiente per produrre agenti web competitivi e distribuibili localmente. Pagina del progetto: https://agent-as-annotators.github.io

English

Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io

Distillazione Strutturata delle Capacità degli Agenti Web Abilita la Generalizzazione

Structured Distillation of Web Agent Capabilities Enables Generalization

Abstract

Support