OpenWebRL: Демистификация онлайн-многошагового обучения с подкреплением для визуальных веб-агентов

Аннотация

Создание эффективных визуальных веб-агентов требует долгосрочного рассуждения, точного связывания и надежного взаимодействия с динамическими реальными веб-сайтами. Несмотря на быстрый прогресс, самые сильные системы остаются в значительной степени проприетарными, в то время как открытые агенты по-прежнему сильно зависят от контролируемого пост-обучения на больших наборах курированных веб-траекторий. Эта зависимость создает серьезное узкое место масштабируемости: высококачественные демонстрации дороги в сборе, а статические наборы данных предлагают ограниченное покрытие разнообразной, постоянно меняющейся открытой сети. Хотя онлайн-обучение с подкреплением (RL) показало многообещающие результаты для текстовых агентов, его потенциал для обучения визуальных веб-агентов непосредственно на живых веб-сайтах остается в значительной степени неизученным. В этой статье мы представляем OpenWebRL — открытую платформу для обучения визуальных веб-агентов с помощью онлайн-многошагового RL на реальных веб-сайтах. OpenWebRL охватывает полный конвейер обучения, включая масштабируемую инфраструктуру живого браузера, контролируемую инициализацию, управление мультимодальным контекстом, оценку успешности на уровне траекторий и эффективную многошаговую оптимизацию политики. Используя эту платформу, мы обучаем OpenWebRL-4B, который устанавливает новый передовой уровень с открытым исходным кодом на сложных бенчмарках живых веб-сайтов. Используя только 0,4 тыс. траекторий инициализации и 2,2 тыс. задач обучения с подкреплением без жестких ограничений, OpenWebRL-4B достигает 67,0% успеха на Online-Mind2Web и 64,0% на DeepShop, превосходя предыдущих открытых агентов аналогичного или большего масштаба и оставаясь конкурентоспособным с проприетарными системами, включая OpenAI CUA и Gemini CUA. Помимо высокой производительности на бенчмарках, мы систематически изучаем ключевые проектные решения, которые делают онлайн-RL эффективным для визуальных веб-агентов, и анализируем, как RL улучшает агентное рассуждение. В целом, наша работа предлагает практический путь к созданию более способных, воспроизводимых и экономически эффективных открытых веб-агентов. Мы опубликуем наши обучающие данные, модели и код для поддержки будущих исследований.

English

Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.