OpenWebRL: Desmitificando el Aprendizaje por Refuerzo Multiturno en Línea para Agentes Web Visuales

Resumen

Construir agentes web visuales capaces requiere razonamiento a largo plazo, fundamentación precisa e interacción robusta con sitios web dinámicos del mundo real. A pesar del rápido progreso, los sistemas más potentes siguen siendo en gran medida propietarios, mientras que los agentes abiertos aún dependen fuertemente del post-entrenamiento supervisado sobre grandes colecciones de trayectorias web curadas. Esta dependencia crea un cuello de botella de escalabilidad importante: las demostraciones de alta calidad son costosas de recolectar, y los conjuntos de datos estáticos ofrecen una cobertura limitada de la web abierta, diversa y en constante cambio. Aunque el RL en línea ha mostrado ser prometedor para agentes basados en texto, su potencial para entrenar directamente agentes web visuales en sitios web reales sigue estando en gran medida inexplorado. En este artículo, presentamos OpenWebRL, un marco abierto para entrenar agentes web visuales con RL en línea de múltiples turnos en sitios web reales. OpenWebRL cubre todo el pipeline de entrenamiento, incluyendo infraestructura escalable de navegador en vivo, inicialización supervisada, gestión de contexto multimodal, evaluación de éxito a nivel de trayectoria y optimización eficiente de políticas multi-turno. Usando este marco, entrenamos OpenWebRL-4B, que establece un nuevo estado del arte de código abierto en benchmarks desafiantes de la web en vivo. Con solo 0.4K trayectorias de inicialización y 2.2K tareas de entrenamiento RL abiertas, OpenWebRL-4B alcanza un 67.0% de éxito en Online-Mind2Web y un 64.0% en DeepShop, superando a agentes abiertos previos de escala similar o mayor y manteniéndose competitivo con sistemas propietarios como OpenAI CUA y Gemini CUA. Más allá del sólido rendimiento en benchmarks, estudiamos sistemáticamente las decisiones clave de diseño que hacen que el RL en línea sea efectivo para agentes web visuales, y analizamos cómo el RL mejora el razonamiento agentivo. En general, nuestro trabajo ofrece un camino práctico hacia la construcción de agentes web abiertos más capaces, reproducibles y rentables. Publicaremos nuestros datos de entrenamiento, modelos y código para apoyar investigaciones futuras.

English

Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.