ChatPaper.aiChatPaper

WebAgent-R1: Обучение веб-агентов с помощью сквозного многозадачного обучения с подкреплением

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

May 22, 2025
Авторы: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI

Аннотация

Хотя обучение с подкреплением (RL) продемонстрировало впечатляющие успехи в улучшении больших языковых моделей (LLM), оно в основном сосредоточено на одношаговых задачах, таких как решение математических задач. Обучение эффективных веб-агентов для многошаговых взаимодействий остается сложной задачей из-за сложности принятия решений на длинных горизонтах в динамических веб-интерфейсах. В данной работе мы представляем WebAgent-R1, простую, но эффективную сквозную многошаговую RL-структуру для обучения веб-агентов. Она обучается непосредственно на основе онлайн-взаимодействий с веб-средами, асинхронно генерируя разнообразные траектории, полностью руководствуясь бинарными наградами, зависящими от успешности задачи. Эксперименты на бенчмарке WebArena-Lite демонстрируют эффективность WebAgent-R1, повышая процент успешного выполнения задач для Qwen-2.5-3B с 6,1% до 33,9% и для Llama-3.1-8B с 8,5% до 44,8%, значительно превосходя существующие передовые методы и сильные проприетарные модели, такие как OpenAI o3. Глубокий анализ показывает эффективность стратегии подсказок на основе мышления и масштабирования во время тестирования за счет увеличения взаимодействий для веб-задач. Мы также исследуем различные политики инициализации RL, вводя два варианта, а именно WebAgent-R1-Zero и WebAgent-R1-CoT, которые подчеркивают важность этапа разогрева (т.е. клонирования поведения) и предоставляют инсайты по включению длинных цепочек рассуждений (CoT) в веб-агентов.
English
While reinforcement learning (RL) has demonstrated remarkable success in enhancing large language models (LLMs), it has primarily focused on single-turn tasks such as solving math problems. Training effective web agents for multi-turn interactions remains challenging due to the complexity of long-horizon decision-making across dynamic web interfaces. In this work, we present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework for training web agents. It learns directly from online interactions with web environments by asynchronously generating diverse trajectories, entirely guided by binary rewards depending on task success. Experiments on the WebArena-Lite benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to 44.8%, significantly outperforming existing state-of-the-art methods and strong proprietary models such as OpenAI o3. In-depth analyses reveal the effectiveness of the thinking-based prompting strategy and test-time scaling through increased interactions for web tasks. We further investigate different RL initialization policies by introducing two variants, namely WebAgent-R1-Zero and WebAgent-R1-CoT, which highlight the importance of the warm-up training stage (i.e., behavior cloning) and provide insights on incorporating long chain-of-thought (CoT) reasoning in web agents.

Summary

AI-Generated Summary

PDF82May 23, 2025