ChatPaper.aiChatPaper

OpenWebRL: Het ontraadselen van online multi-turn bekrachtigingsleren voor visuele webagenten

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

June 1, 2026
Auteurs: Rui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao
cs.AI

Samenvatting

Het bouwen van capabele visuele webagenten vereist redeneren over lange termijn, precieze verankering en robuuste interactie met dynamische, realistische websites. Ondanks snelle vooruitgang blijven de sterkste systemen grotendeels eigendom, terwijl open agenten nog sterk afhankelijk zijn van gesuperviseerde nabehandeling over grote verzamelingen samengestelde web trajecten. Deze afhankelijkheid creëert een belangrijk schaalbaarheidsknelpunt: hoogwaardige demonstraties zijn duur om te verzamelen, en statische datasets bieden beperkte dekking van het diverse, steeds veranderende open web. Hoewel online RL veelbelovend is gebleken voor tekstgebaseerde agenten, blijft het potentieel voor het direct trainen van visuele webagenten op live websites grotendeels onderbelicht. In dit artikel introduceren we OpenWebRL, een open framework voor het trainen van visuele webagenten met online multi-turn RL op echte websites. OpenWebRL dekt de volledige trainingspijplijn, inclusief schaalbare live-browserinfrastructuur, gesuperviseerde initialisatie, multimodaal contextbeheer, succesbeoordeling op trajectniveau en efficiënte multi-turn beleidsoptimalisatie. Met behulp van dit framework trainen we OpenWebRL-4B, dat een nieuwe open-source state-of-the-art vestigt op uitdagende live-web benchmarks. Met slechts 0,4K initialisatietrajecten en 2,2K open-ended RL-trainings taken behaalt OpenWebRL-4B een succespercentage van 67,0% op Online-Mind2Web en 64,0% op DeepShop, waarmee het eerdere open agenten van vergelijkbare of grotere schaal overtreft en concurrerend blijft met propriëtaire systemen, waaronder OpenAI CUA en Gemini CUA. Naast sterke benchmarkprestaties bestuderen we systematisch de belangrijkste ontwerpkeuzes die online RL effectief maken voor visuele webagenten, en analyseren we hoe RL het agentisch redeneren verbetert. Over het geheel genomen biedt ons werk een praktisch pad naar het bouwen van capabelere, reproduceerbare en kostenefficiëntere open webagenten. We zullen onze trainingsdata, modellen en code vrijgeven om toekomstig onderzoek te ondersteunen.
English
Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.