WebAgent-R1: Addestramento di Agenti Web tramite Apprendimento per Rinforzo Multi-Turn End-to-End
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
May 22, 2025
Autori: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI
Abstract
Sebbene l'apprendimento per rinforzo (RL) abbia dimostrato un notevole successo nel potenziare i grandi modelli linguistici (LLM), si è principalmente concentrato su compiti a turno singolo come la risoluzione di problemi matematici. Addestrare agenti web efficaci per interazioni multi-turno rimane una sfida a causa della complessità del processo decisionale a lungo orizzonte attraverso interfacce web dinamiche. In questo lavoro, presentiamo WebAgent-R1, un framework RL end-to-end semplice ma efficace per l'addestramento di agenti web. Impara direttamente dalle interazioni online con ambienti web generando in modo asincrono traiettorie diverse, interamente guidato da ricompense binarie in base al successo del compito. Gli esperimenti sul benchmark WebArena-Lite dimostrano l'efficacia di WebAgent-R1, aumentando il tasso di successo dei compiti di Qwen-2.5-3B dal 6,1% al 33,9% e di Llama-3.1-8B dall'8,5% al 44,8%, superando significativamente i metodi all'avanguardia esistenti e modelli proprietari robusti come OpenAI o3. Analisi approfondite rivelano l'efficacia della strategia di prompting basata sul pensiero e del ridimensionamento al momento del test attraverso un aumento delle interazioni per i compiti web. Investigiamo ulteriormente diverse politiche di inizializzazione RL introducendo due varianti, ovvero WebAgent-R1-Zero e WebAgent-R1-CoT, che evidenziano l'importanza della fase di addestramento di riscaldamento (cioè, clonazione del comportamento) e forniscono approfondimenti sull'incorporazione di ragionamenti a lunga catena di pensiero (CoT) negli agenti web.
English
While reinforcement learning (RL) has demonstrated remarkable success in
enhancing large language models (LLMs), it has primarily focused on single-turn
tasks such as solving math problems. Training effective web agents for
multi-turn interactions remains challenging due to the complexity of
long-horizon decision-making across dynamic web interfaces. In this work, we
present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework
for training web agents. It learns directly from online interactions with web
environments by asynchronously generating diverse trajectories, entirely guided
by binary rewards depending on task success. Experiments on the WebArena-Lite
benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task
success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to
44.8%, significantly outperforming existing state-of-the-art methods and strong
proprietary models such as OpenAI o3. In-depth analyses reveal the
effectiveness of the thinking-based prompting strategy and test-time scaling
through increased interactions for web tasks. We further investigate different
RL initialization policies by introducing two variants, namely WebAgent-R1-Zero
and WebAgent-R1-CoT, which highlight the importance of the warm-up training
stage (i.e., behavior cloning) and provide insights on incorporating long
chain-of-thought (CoT) reasoning in web agents.