WebAgent-R1: Treinando Agentes Web por meio de Aprendizado por Reforço Multi-Turn de Ponta a Ponta
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
May 22, 2025
Autores: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI
Resumo
Embora o aprendizado por reforço (RL) tenha demonstrado sucesso notável em aprimorar grandes modelos de linguagem (LLMs), ele tem se concentrado principalmente em tarefas de turno único, como resolver problemas matemáticos. Treinar agentes web eficazes para interações multi-turno continua desafiador devido à complexidade da tomada de decisão de longo horizonte em interfaces web dinâmicas. Neste trabalho, apresentamos o WebAgent-R1, uma estrutura RL multi-turno de ponta a ponta simples, porém eficaz, para treinar agentes web. Ele aprende diretamente a partir de interações online com ambientes web, gerando de forma assíncrona trajetórias diversas, totalmente guiadas por recompensas binárias dependentes do sucesso da tarefa. Experimentos no benchmark WebArena-Lite demonstram a eficácia do WebAgent-R1, aumentando a taxa de sucesso de tarefas do Qwen-2.5-3B de 6,1% para 33,9% e do Llama-3.1-8B de 8,5% para 44,8%, superando significativamente os métodos state-of-the-art existentes e modelos proprietários robustos, como o OpenAI o3. Análises detalhadas revelam a eficácia da estratégia de prompting baseada em pensamento e da escalagem em tempo de teste por meio do aumento de interações para tarefas web. Investigamos ainda diferentes políticas de inicialização de RL, introduzindo duas variantes, WebAgent-R1-Zero e WebAgent-R1-CoT, que destacam a importância da etapa de treinamento de aquecimento (ou seja, clonagem de comportamento) e fornecem insights sobre a incorporação de raciocínio de cadeia longa de pensamento (CoT) em agentes web.
English
While reinforcement learning (RL) has demonstrated remarkable success in
enhancing large language models (LLMs), it has primarily focused on single-turn
tasks such as solving math problems. Training effective web agents for
multi-turn interactions remains challenging due to the complexity of
long-horizon decision-making across dynamic web interfaces. In this work, we
present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework
for training web agents. It learns directly from online interactions with web
environments by asynchronously generating diverse trajectories, entirely guided
by binary rewards depending on task success. Experiments on the WebArena-Lite
benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task
success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to
44.8%, significantly outperforming existing state-of-the-art methods and strong
proprietary models such as OpenAI o3. In-depth analyses reveal the
effectiveness of the thinking-based prompting strategy and test-time scaling
through increased interactions for web tasks. We further investigate different
RL initialization policies by introducing two variants, namely WebAgent-R1-Zero
and WebAgent-R1-CoT, which highlight the importance of the warm-up training
stage (i.e., behavior cloning) and provide insights on incorporating long
chain-of-thought (CoT) reasoning in web agents.