WebAgent-R1: Entrenamiento de Agentes Web mediante Aprendizaje por Refuerzo Multiturno de Extremo a Extremo
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
May 22, 2025
Autores: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI
Resumen
Si bien el aprendizaje por refuerzo (RL) ha demostrado un éxito notable en la mejora de modelos de lenguaje grandes (LLMs), se ha centrado principalmente en tareas de un solo turno, como resolver problemas matemáticos. Entrenar agentes web efectivos para interacciones de múltiples turnos sigue siendo un desafío debido a la complejidad de la toma de decisiones a largo plazo en interfaces web dinámicas. En este trabajo, presentamos WebAgent-R1, un marco de RL de extremo a extremo simple pero efectivo para entrenar agentes web. Aprende directamente de interacciones en línea con entornos web generando trayectorias diversas de manera asíncrona, guiado completamente por recompensas binarias que dependen del éxito de la tarea. Los experimentos en el benchmark WebArena-Lite demuestran la efectividad de WebAgent-R1, aumentando la tasa de éxito de tareas de Qwen-2.5-3B del 6.1% al 33.9% y de Llama-3.1-8B del 8.5% al 44.8%, superando significativamente los métodos existentes de última generación y modelos propietarios fuertes como OpenAI o3. Análisis en profundidad revelan la efectividad de la estrategia de prompting basada en pensamiento y la escalabilidad en tiempo de prueba mediante el aumento de interacciones para tareas web. Además, investigamos diferentes políticas de inicialización de RL introduciendo dos variantes, WebAgent-R1-Zero y WebAgent-R1-CoT, que destacan la importancia de la etapa de entrenamiento de calentamiento (es decir, clonación de comportamiento) y proporcionan insights sobre la incorporación de razonamiento de cadena de pensamiento larga (CoT) en agentes web.
English
While reinforcement learning (RL) has demonstrated remarkable success in
enhancing large language models (LLMs), it has primarily focused on single-turn
tasks such as solving math problems. Training effective web agents for
multi-turn interactions remains challenging due to the complexity of
long-horizon decision-making across dynamic web interfaces. In this work, we
present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework
for training web agents. It learns directly from online interactions with web
environments by asynchronously generating diverse trajectories, entirely guided
by binary rewards depending on task success. Experiments on the WebArena-Lite
benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task
success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to
44.8%, significantly outperforming existing state-of-the-art methods and strong
proprietary models such as OpenAI o3. In-depth analyses reveal the
effectiveness of the thinking-based prompting strategy and test-time scaling
through increased interactions for web tasks. We further investigate different
RL initialization policies by introducing two variants, namely WebAgent-R1-Zero
and WebAgent-R1-CoT, which highlight the importance of the warm-up training
stage (i.e., behavior cloning) and provide insights on incorporating long
chain-of-thought (CoT) reasoning in web agents.