OpenWebRL: Desmistificando o Aprendizado por Reforço Online de Múltiplas Etapas para Agentes Web Visuais

Resumo

Construir agentes visuais web capazes requer raciocínio de longo horizonte, fundamentação precisa e interação robusta com sites dinâmicos do mundo real. Apesar do rápido progresso, os sistemas mais fortes permanecem amplamente proprietários, enquanto os agentes abertos ainda dependem fortemente de pós-treinamento supervisionado sobre grandes coleções de trajetórias web curadas. Essa dependência cria um gargalo de escalabilidade significativo: demonstrações de alta qualidade são caras de coletar, e conjuntos de dados estáticos oferecem cobertura limitada da web aberta diversa e em constante mudança. Embora o RL online tenha se mostrado promissor para agentes baseados em texto, seu potencial para treinar agentes visuais web diretamente em sites ao vivo permanece amplamente inexplorado. Neste artigo, apresentamos o OpenWebRL, uma estrutura aberta para treinar agentes visuais web com RL online multiturno em sites reais. O OpenWebRL abrange todo o pipeline de treinamento, incluindo infraestrutura escalável de navegador ao vivo, inicialização supervisionada, gerenciamento de contexto multimodal, avaliação de sucesso em nível de trajetória e otimização eficiente de políticas multiturno. Utilizando essa estrutura, treinamos o OpenWebRL-4B, que estabelece um novo estado da arte de código aberto em benchmarks web ao vivo desafiadores. Com apenas 0,4 mil trajetórias de inicialização e 2,2 mil tarefas de treinamento RL abertas, o OpenWebRL-4B atinge 67,0% de sucesso no Online-Mind2Web e 64,0% no DeepShop, superando agentes abertos anteriores de escala similar ou maior e mantendo-se competitivo com sistemas proprietários, incluindo OpenAI CUA e Gemini CUA. Além do forte desempenho em benchmarks, estudamos sistematicamente as principais escolhas de design que tornam o RL online eficaz para agentes visuais web e analisamos como o RL melhora o raciocínio agentivo. No geral, nosso trabalho oferece um caminho prático para construir agentes web abertos mais capazes, reproduzíveis e econômicos. Disponibilizaremos nossos dados de treinamento, modelos e código para apoiar pesquisas futuras.

English

Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.