OpenWebRL: Entmystifizierung des Online-Mehrfach-Runden-Verstärkungslernens für visuelle Web-Agenten

Zusammenfassung

Die Entwicklung leistungsfähiger visueller Web-Agenten erfordert mehrstufiges Denken über längere Zeithorizonte, präzise Verankerung und robuste Interaktion mit dynamischen realen Websites. Trotz rascher Fortschritte bleiben die stärksten Systeme weitgehend proprietär, während offene Agenten weiterhin stark auf überwachtes Nachtraining mit umfangreichen Sammlungen kuratierter Web-Trajektorien angewiesen sind. Diese Abhängigkeit führt zu einem erheblichen Skalierbarkeitsengpass: Hochwertige Demonstrationen sind teuer zu sammeln, und statische Datensätze decken die Vielfalt des sich ständig verändernden offenen Webs nur unzureichend ab. Obwohl Online-RL bei textbasierten Agenten vielversprechend ist, bleibt sein Potenzial für das Training visueller Web-Agenten direkt auf Live-Websites weitgehend unerforscht. In dieser Arbeit stellen wir OpenWebRL vor, ein offenes Framework für das Training visueller Web-Agenten mit mehrstufigem Online-RL auf realen Websites. OpenWebRL deckt die gesamte Trainingspipeline ab, einschließlich skalierbarer Live-Browser-Infrastruktur, überwachter Initialisierung, multimodaler Kontextverwaltung, trajektorienbasierter Erfolgsbewertung und effizienter mehrstufiger Politikoptimierung. Mit diesem Rahmen trainieren wir OpenWebRL-4B, das einen neuen Open-Source-State-of-the-Art auf anspruchsvollen Live-Web-Benchmarks setzt. Mit nur 0,4K Initialisierungstrajektorien und 2,2K offenen RL-Trainingsaufgaben erreicht OpenWebRL-4B eine Erfolgsquote von 67,0% auf Online-Mind2Web und 64,0% auf DeepShop, übertrifft frühere offene Agenten ähnlicher oder größerer Größe und bleibt wettbewerbsfähig mit proprietären Systemen wie OpenAI CUA und Gemini CUA. Über die starke Benchmark-Leistung hinaus untersuchen wir systematisch die wichtigsten Designentscheidungen, die Online-RL für visuelle Web-Agenten effektiv machen, und analysieren, wie RL agentisches Denken verbessert. Insgesamt bietet unsere Arbeit einen praktischen Weg zur Entwicklung leistungsfähigerer, reproduzierbarerer und kosteneffizienterer offener Web-Agenten. Wir werden unsere Trainingsdaten, Modelle und Code veröffentlichen, um zukünftige Forschung zu unterstützen.

English

Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.