ChatPaper.aiChatPaper

WebGym: Het Opschalen van Trainingsomgevingen voor Visuele Webagentschappen met Realistische Taken

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

January 5, 2026
Auteurs: Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead
cs.AI

Samenvatting

Wij presenteren WebGym, de grootste open-source omgeving tot op heden voor het trainen van realistische visuele webagents. Echte websites zijn niet-stationair en divers, waardoor kunstmatige of kleinschalige taaksets onvoldoende zijn voor robuuste beleidsleren. WebGym bevat bijna 300.000 taken met rubric-gebaseerde evaluaties over diverse, real-world websites en moeilijkheidsgraden. Wij trainen agents met een eenvoudig recept voor reinforcement learning (RL), dat traint op de eigen interactietrajecten (rollouts) van de agent, waarbij taakbeloningen als feedback worden gebruikt om het leren te sturen. Om RL-schaling mogelijk te maken, versnellen we de bemonstering van trajecten in WebGym door de ontwikkeling van een hoogdoorzet asynchroon rollout-systeem, specifiek ontworpen voor webagents. Ons systeem bereikt een 4-5x snelheidswinst voor rollouts in vergelijking met naïeve implementaties. Ten tweede schalen we de breedte, diepte en omvang van de taakset, wat resulteert in een aanhoudende prestatieverbetering. Het fine-tunen van een sterk basis vision-language model, Qwen-3-VL-8B-Instruct, op WebGym resulteert in een verbetering van het succespercentage op een out-of-distribution testset van 26,2% naar 42,9%, wat aanzienlijk beter presteert dan agents gebaseerd op propriëtaire modellen zoals GPT-4o en GPT-5-Thinking, die respectievelijk 27,1% en 29,8% behalen. Deze verbetering is substantieel omdat onze testset uitsluitend bestaat uit taken op websites die nooit tijdens de training zijn gezien, in tegenstelling tot veel andere eerdere werken over het trainen van visuele webagents.
English
We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.
PDF41January 8, 2026