WebAgent-R1: Training von Web-Agenten durch end-to-end Multi-Turn Reinforcement Learning

papers.abstract

Während Reinforcement Learning (RL) bemerkenswerte Erfolge bei der Verbesserung großer Sprachmodelle (LLMs) gezeigt hat, lag der Fokus bisher hauptsächlich auf einstufigen Aufgaben wie dem Lösen von Mathematikproblemen. Die Ausbildung effektiver Web-Agenten für mehrstufige Interaktionen bleibt aufgrund der Komplexität langfristiger Entscheidungsfindung über dynamische Web-Oberflächen hinweg eine Herausforderung. In dieser Arbeit präsentieren wir WebAgent-R1, ein einfaches, aber effektives End-to-End-Mehrstufen-RL-Framework für die Ausbildung von Web-Agenten. Es lernt direkt aus Online-Interaktionen mit Web-Umgebungen, indem es asynchron diverse Trajektorien generiert, die vollständig durch binäre Belohnungen in Abhängigkeit vom Aufgaben-Erfolg gesteuert werden. Experimente auf dem WebArena-Lite-Benchmark demonstrieren die Wirksamkeit von WebAgent-R1, wodurch die Aufgaben-Erfolgsrate von Qwen-2.5-3B von 6,1 % auf 33,9 % und von Llama-3.1-8B von 8,5 % auf 44,8 % gesteigert wird, was bestehende State-of-the-Art-Methoden und starke proprietäre Modelle wie OpenAI o3 deutlich übertrifft. Tiefgehende Analysen zeigen die Wirksamkeit der Denk-basierten Prompting-Strategie und der Testzeit-Skalierung durch erhöhte Interaktionen für Web-Aufgaben. Wir untersuchen weiterhin verschiedene RL-Initialisierungsstrategien, indem wir zwei Varianten einführen, nämlich WebAgent-R1-Zero und WebAgent-R1-CoT, die die Bedeutung der Aufwärmtrainingsphase (d. h. Behavior Cloning) hervorheben und Einblicke in die Einbindung langer Chain-of-Thought (CoT)-Argumentation in Web-Agenten bieten.

English

While reinforcement learning (RL) has demonstrated remarkable success in enhancing large language models (LLMs), it has primarily focused on single-turn tasks such as solving math problems. Training effective web agents for multi-turn interactions remains challenging due to the complexity of long-horizon decision-making across dynamic web interfaces. In this work, we present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework for training web agents. It learns directly from online interactions with web environments by asynchronously generating diverse trajectories, entirely guided by binary rewards depending on task success. Experiments on the WebArena-Lite benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to 44.8%, significantly outperforming existing state-of-the-art methods and strong proprietary models such as OpenAI o3. In-depth analyses reveal the effectiveness of the thinking-based prompting strategy and test-time scaling through increased interactions for web tasks. We further investigate different RL initialization policies by introducing two variants, namely WebAgent-R1-Zero and WebAgent-R1-CoT, which highlight the importance of the warm-up training stage (i.e., behavior cloning) and provide insights on incorporating long chain-of-thought (CoT) reasoning in web agents.

WebAgent-R1: Training von Web-Agenten durch end-to-end Multi-Turn Reinforcement Learning

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

papers.abstract

Support