WebGym: Scalabilità degli Ambienti di Addestramento per Agenti Web Visivi con Compiti Realistici

Abstract

Presentiamo WebGym, l'ambiente open-source più vasto fino ad oggi per l'addestramento di agenti web visivi realistici. I siti web reali sono non stazionari e diversificati, rendendo insoddisfacenti per un apprendimento robusto delle policy gli insiemi di compiti artificiali o su piccola scala. WebGym contiene quasi 300.000 compiti con valutazioni basate su rubriche che coprono siti web reali eterogenei e diversi livelli di difficoltà. Addestriamo gli agenti con una semplice ricetta di apprendimento per rinforzo (RL), che si addestra sulle tracce di interazione (rollout) dell'agente stesso, utilizzando le ricompense del compito come feedback per guidare l'apprendimento. Per permettere la scalabilità del RL, acceleriamo il campionamento delle traiettorie in WebGym sviluppando un sistema di rollout asincrono ad alta velocità, progettato specificamente per agenti web. Il nostro sistema raggiunge un'accelerazione del rollout di 4-5x rispetto alle implementazioni naive. In secondo luogo, aumentiamo l'ampiezza, la profondità e le dimensioni dell'insieme di compiti, il che si traduce in un miglioramento continuo delle prestazioni. Il fine-tuning di un solido modello base visione-linguaggio, Qwen-3-VL-8B-Instruct, su WebGym comporta un miglioramento del tasso di successo su un insieme di test fuori distribuzione dal 26,2% al 42,9%, superando significativamente agenti basati su modelli proprietari come GPT-4o e GPT-5-Thinking che raggiungono rispettivamente il 27,1% e il 29,8%. Questo miglioramento è sostanziale perché il nostro insieme di test è composto esclusivamente da compiti su siti web mai visti durante l'addestramento, a differenza di molti altri lavori precedenti sull'addestramento di agenti web visivi.

English

We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.

WebGym: Scalabilità degli Ambienti di Addestramento per Agenti Web Visivi con Compiti Realistici

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Abstract

Support