ChatPaper.aiChatPaper

WebGym: 現実的なタスクを用いた視覚的Webエージェントのためのトレーニング環境のスケーリング

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

January 5, 2026
著者: Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead
cs.AI

要旨

本論文では、これまでで最大規模のオープンソース環境であるWebGymを提案する。これは現実的な視覚的Webエージェントを訓練するための環境である。実世界のWebサイトは非定常かつ多様であるため、人工的または小規模なタスクセットではロバストな方策学習には不十分である。WebGymは、多様な実世界のWebサイトと難易度にわたる、ルーブリック評価に基づく約30万のタスクを包含する。我々は、単純な強化学習(RL)レシピを用いてエージェントを訓練する。この手法は、エージェント自身のインタラクションの軌跡(ロールアウト)に対して訓練を行い、タスクの報酬を学習を導くフィードバックとして利用する。RLのスケーリングを可能にするため、Webエージェントに特化して設計された高スループットの非同期ロールアウトシステムを開発し、WebGymにおける軌道のサンプリング速度を向上させた。本システムは、単純な実装と比較して4~5倍のロールアウト速度向上を達成する。第二に、タスクセットの広がり、深さ、サイズをスケールさせ、継続的な性能向上をもたらした。強力な基盤視覚言語モデルであるQwen-3-VL-8B-InstructをWebGymでファインチューニングした結果、分布外テストセットにおける成功率が26.2%から42.9%に向上し、それぞれ27.1%と29.8%を達成したGPT-4oやGPT-5-Thinkingなどのプロプライエタリモデルベースのエージェントを大幅に上回った。この改善は顕著である。なぜなら、我々のテストセットは、視覚的Webエージェントの訓練に関する他の多くの先行研究とは異なり、訓練中に一度も見なかったWebサイト上のタスクのみで構成されているからである。
English
We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.
PDF41January 8, 2026