OpenWebRL : Démystifier l'apprentissage par renforcement en ligne multi-tours pour les agents web visuels

Résumé

Construire des agents web visuels capables nécessite un raisonnement à long terme, un ancrage précis et une interaction robuste avec des sites web dynamiques réels. Malgré des progrès rapides, les systèmes les plus performants restent largement propriétaires, tandis que les agents ouverts dépendent encore fortement d'un post-entraînement supervisé sur de vastes collections de trajectoires web curatées. Cette dépendance crée un goulot d'étranglement majeur en termes de passage à l'échelle : les démonstrations de haute qualité sont coûteuses à collecter, et les ensembles de données statiques offrent une couverture limitée du web ouvert diversifié et en constante évolution. Bien que l'apprentissage par renforcement (RL) en ligne ait montré des promesses pour les agents textuels, son potentiel pour entraîner directement des agents web visuels sur des sites web réels reste largement sous-exploré. Dans cet article, nous présentons OpenWebRL, un cadre ouvert pour l'entraînement d'agents web visuels avec du RL multi-tours en ligne sur des sites web réels. OpenWebRL couvre l'intégralité du pipeline d'entraînement, y compris une infrastructure de navigateur en direct scalable, une initialisation supervisée, une gestion du contexte multimodal, un jugement de succès au niveau de la trajectoire et une optimisation efficace des politiques multi-tours. En utilisant ce cadre, nous entraînons OpenWebRL-4B, qui établit un nouvel état de l'art open source sur des benchmarks web vivants exigeants. Avec seulement 0,4K trajectoires d'initialisation et 2,2K tâches d'entraînement RL en boucle ouverte, OpenWebRL-4B atteint 67,0 % de succès sur Online-Mind2Web et 64,0 % sur DeepShop, surpassant les agents ouverts antérieurs d'échelle similaire ou plus grande et restant compétitif avec les systèmes propriétaires, y compris OpenAI CUA et Gemini CUA. Au-delà de performances solides sur les benchmarks, nous étudions systématiquement les choix de conception clés qui rendent le RL en ligne efficace pour les agents web visuels, et analysons comment le RL améliore le raisonnement agentiel. Dans l'ensemble, notre travail offre une voie pratique vers la construction d'agents web ouverts plus capables, reproductibles et rentables. Nous publierons nos données d'entraînement, modèles et code pour soutenir la recherche future.

English

Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.