WebAgent-R1: Het trainen van webagents via end-to-end multi-turn reinforcement learning
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
May 22, 2025
Auteurs: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI
Samenvatting
Hoewel reinforcement learning (RL) opmerkelijke successen heeft laten zien bij het verbeteren van grote taalmmodellen (LLMs), heeft het zich voornamelijk gericht op enkelvoudige taken, zoals het oplossen van wiskundige problemen. Het trainen van effectieve webagents voor meervoudige interacties blijft een uitdaging vanwege de complexiteit van besluitvorming over lange tijdshorizonten in dynamische webinterfaces. In dit werk presenteren we WebAgent-R1, een eenvoudig maar effectief end-to-end multi-turn RL-framework voor het trainen van webagents. Het leert direct van online interacties met webomgevingen door asynchroon diverse trajecten te genereren, volledig geleid door binaire beloningen afhankelijk van taaksucces. Experimenten op de WebArena-Lite-benchmark demonstreren de effectiviteit van WebAgent-R1, waarbij het taaksuccespercentage van Qwen-2.5-3B stijgt van 6,1% naar 33,9% en van Llama-3.1-8B van 8,5% naar 44,8%, wat aanzienlijk beter presteert dan bestaande state-of-the-art methoden en sterke propriëtaire modellen zoals OpenAI o3. Diepgaande analyses onthullen de effectiviteit van de denkgebaseerde promptingstrategie en test-time schaling door middel van verhoogde interacties voor webtaken. We onderzoeken verder verschillende RL-initialisatiebeleidslijnen door twee varianten te introduceren, namelijk WebAgent-R1-Zero en WebAgent-R1-CoT, die het belang van de warm-up trainingsfase (d.w.z. behavior cloning) benadrukken en inzichten bieden over het integreren van lange chain-of-thought (CoT) redenering in webagents.
English
While reinforcement learning (RL) has demonstrated remarkable success in
enhancing large language models (LLMs), it has primarily focused on single-turn
tasks such as solving math problems. Training effective web agents for
multi-turn interactions remains challenging due to the complexity of
long-horizon decision-making across dynamic web interfaces. In this work, we
present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework
for training web agents. It learns directly from online interactions with web
environments by asynchronously generating diverse trajectories, entirely guided
by binary rewards depending on task success. Experiments on the WebArena-Lite
benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task
success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to
44.8%, significantly outperforming existing state-of-the-art methods and strong
proprietary models such as OpenAI o3. In-depth analyses reveal the
effectiveness of the thinking-based prompting strategy and test-time scaling
through increased interactions for web tasks. We further investigate different
RL initialization policies by introducing two variants, namely WebAgent-R1-Zero
and WebAgent-R1-CoT, which highlight the importance of the warm-up training
stage (i.e., behavior cloning) and provide insights on incorporating long
chain-of-thought (CoT) reasoning in web agents.