ChatPaper.aiChatPaper

WebGym: 현실적인 작업을 수행하는 시각적 웹 에이전트를 위한 훈련 환경 확장

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

January 5, 2026
저자: Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead
cs.AI

초록

본 논문에서는 현실적인 시각 웹 에이전트를 훈련시키기 위해 현재까지 공개된 환경 중 가장 규모가 큰 WebGym을 제시합니다. 실제 웹사이트는 비정적이고 다양하기 때문에 인공적이거나 소규모의 작업 세트만으로는 강력한 정책 학습을 수행하기에 부족합니다. WebGym은 다양한 실제 웹사이트와 난이도에 걸쳐 루브릭 기반 평가를 포함한 약 30만 개의 작업을 보유하고 있습니다. 우리는 단순한 강화 학습 방법으로 에이전트를 훈련시키며, 이 방법은 에이전트 자신의 상호작용 흔적(롤아웃)을 바탕으로 학습하고 작업 보상을 학습을 안내하는 피드백으로 활용합니다. 강화 학습의 규모 확장을 가능하게 하기 위해, 우리는 웹 에이전트에 특화된 고처리량 비동기 롤아웃 시스템을 개발하여 WebGym 내에서의 궤적 샘플링 속도를 높였습니다. 우리의 시스템은 단순한 구현 방식과 비교하여 4-5배의 롤아웃 속도 향상을 달성했습니다. 둘째, 작업 세트의 폭, 깊이 및 규모를 확장하여 지속적인 성능 향상을 이루었습니다. 강력한 기본 시각-언어 모델인 Qwen-3-VL-8B-Instruct를 WebGym으로 미세 조정한 결과, 훈련 과정에서 한 번도 접하지 않은 웹사이트의 작업으로만 구성된 분포 외 테스트 세트에서 성공률이 26.2%에서 42.9%로 향상되었습니다. 이는 각각 27.1%와 29.8%를 달성한 GPT-4o 및 GPT-5-Thinking과 같은 사유 모델 기반 에이전트를 크게 앞서는 성과입니다. 이 개선 폭은 시각 웹 에이전트 훈련에 관한 많은 기존 연구들과 달리 우리의 테스트 세트가 훈련 중 전혀 접하지 않은 웹사이트의 작업으로만 구성되었다는 점에서 그 의미가 큽니다.
English
We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.
PDF41January 8, 2026