ChatPaper.aiChatPaper

WebAgent-R1: エンドツーエンド多ターン強化学習によるウェブエージェントのトレーニング

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

May 22, 2025
著者: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI

要旨

強化学習(RL)は大規模言語モデル(LLMs)の性能向上において顕著な成功を収めてきたが、その焦点は主に数学問題の解決などの単一ターンタスクに当てられてきた。動的なウェブインターフェースを跨ぐ長期的な意思決定の複雑さから、多ターンインタラクションにおける効果的なウェブエージェントの訓練は依然として課題となっている。本研究では、ウェブエージェントを訓練するためのシンプルでありながら効果的なエンドツーエンドの多ターンRLフレームワークであるWebAgent-R1を提案する。これは、タスクの成功に依存する二値報酬に完全に導かれて、ウェブ環境とのオンラインインタラクションから直接学習し、多様な軌跡を非同期に生成する。WebArena-Liteベンチマークでの実験により、WebAgent-R1の有効性が実証され、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に、Llama-3.1-8Bのタスク成功率を8.5%から44.8%に向上させ、既存の最先端手法やOpenAI o3のような強力なプロプライエタリモデルを大幅に上回った。詳細な分析により、思考ベースのプロンプト戦略と、インタラクションを増やすことによるテストタイムスケーリングの有効性が明らかになった。さらに、2つのバリアントであるWebAgent-R1-ZeroとWebAgent-R1-CoTを導入することで、異なるRL初期化ポリシーを調査し、ウォームアップ訓練段階(すなわち、行動クローニング)の重要性を強調し、ウェブエージェントに長い連鎖思考(CoT)推論を組み込むための洞察を提供する。
English
While reinforcement learning (RL) has demonstrated remarkable success in enhancing large language models (LLMs), it has primarily focused on single-turn tasks such as solving math problems. Training effective web agents for multi-turn interactions remains challenging due to the complexity of long-horizon decision-making across dynamic web interfaces. In this work, we present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework for training web agents. It learns directly from online interactions with web environments by asynchronously generating diverse trajectories, entirely guided by binary rewards depending on task success. Experiments on the WebArena-Lite benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to 44.8%, significantly outperforming existing state-of-the-art methods and strong proprietary models such as OpenAI o3. In-depth analyses reveal the effectiveness of the thinking-based prompting strategy and test-time scaling through increased interactions for web tasks. We further investigate different RL initialization policies by introducing two variants, namely WebAgent-R1-Zero and WebAgent-R1-CoT, which highlight the importance of the warm-up training stage (i.e., behavior cloning) and provide insights on incorporating long chain-of-thought (CoT) reasoning in web agents.

Summary

AI-Generated Summary

PDF82May 23, 2025