WebAgent-R1: Training von Web-Agenten durch end-to-end Multi-Turn Reinforcement Learning
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
May 22, 2025
Autoren: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI
Zusammenfassung
Während Reinforcement Learning (RL) bemerkenswerte Erfolge bei der Verbesserung großer Sprachmodelle (LLMs) gezeigt hat, lag der Fokus bisher hauptsächlich auf einstufigen Aufgaben wie dem Lösen von Mathematikproblemen. Die Ausbildung effektiver Web-Agenten für mehrstufige Interaktionen bleibt aufgrund der Komplexität langfristiger Entscheidungsfindung über dynamische Web-Oberflächen hinweg eine Herausforderung. In dieser Arbeit präsentieren wir WebAgent-R1, ein einfaches, aber effektives End-to-End-Mehrstufen-RL-Framework für die Ausbildung von Web-Agenten. Es lernt direkt aus Online-Interaktionen mit Web-Umgebungen, indem es asynchron diverse Trajektorien generiert, die vollständig durch binäre Belohnungen in Abhängigkeit vom Aufgaben-Erfolg gesteuert werden. Experimente auf dem WebArena-Lite-Benchmark demonstrieren die Wirksamkeit von WebAgent-R1, wodurch die Aufgaben-Erfolgsrate von Qwen-2.5-3B von 6,1 % auf 33,9 % und von Llama-3.1-8B von 8,5 % auf 44,8 % gesteigert wird, was bestehende State-of-the-Art-Methoden und starke proprietäre Modelle wie OpenAI o3 deutlich übertrifft. Tiefgehende Analysen zeigen die Wirksamkeit der Denk-basierten Prompting-Strategie und der Testzeit-Skalierung durch erhöhte Interaktionen für Web-Aufgaben. Wir untersuchen weiterhin verschiedene RL-Initialisierungsstrategien, indem wir zwei Varianten einführen, nämlich WebAgent-R1-Zero und WebAgent-R1-CoT, die die Bedeutung der Aufwärmtrainingsphase (d. h. Behavior Cloning) hervorheben und Einblicke in die Einbindung langer Chain-of-Thought (CoT)-Argumentation in Web-Agenten bieten.
English
While reinforcement learning (RL) has demonstrated remarkable success in
enhancing large language models (LLMs), it has primarily focused on single-turn
tasks such as solving math problems. Training effective web agents for
multi-turn interactions remains challenging due to the complexity of
long-horizon decision-making across dynamic web interfaces. In this work, we
present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework
for training web agents. It learns directly from online interactions with web
environments by asynchronously generating diverse trajectories, entirely guided
by binary rewards depending on task success. Experiments on the WebArena-Lite
benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task
success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to
44.8%, significantly outperforming existing state-of-the-art methods and strong
proprietary models such as OpenAI o3. In-depth analyses reveal the
effectiveness of the thinking-based prompting strategy and test-time scaling
through increased interactions for web tasks. We further investigate different
RL initialization policies by introducing two variants, namely WebAgent-R1-Zero
and WebAgent-R1-CoT, which highlight the importance of the warm-up training
stage (i.e., behavior cloning) and provide insights on incorporating long
chain-of-thought (CoT) reasoning in web agents.Summary
AI-Generated Summary