WebAgent-R1 : Entraînement d'agents web via un apprentissage par renforcement multi-tours de bout en bout
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
May 22, 2025
Auteurs: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li
cs.AI
Résumé
Bien que l'apprentissage par renforcement (RL) ait démontré un succès remarquable dans l'amélioration des grands modèles de langage (LLMs), il s'est principalement concentré sur des tâches à tour unique, comme la résolution de problèmes mathématiques. L'entraînement d'agents web efficaces pour des interactions multi-tours reste un défi en raison de la complexité de la prise de décision à long terme sur des interfaces web dynamiques. Dans ce travail, nous présentons WebAgent-R1, un cadre d'apprentissage par renforcement multi-tours simple mais efficace pour entraîner des agents web. Il apprend directement à partir d'interactions en ligne avec des environnements web en générant de manière asynchrone des trajectoires diversifiées, entièrement guidé par des récompenses binaires dépendant du succès de la tâche. Les expériences sur le benchmark WebArena-Lite démontrent l'efficacité de WebAgent-R1, augmentant le taux de réussite des tâches de Qwen-2.5-3B de 6,1 % à 33,9 % et de Llama-3.1-8B de 8,5 % à 44,8 %, surpassant significativement les méthodes état de l'art existantes et les modèles propriétaires puissants comme OpenAI o3. Des analyses approfondies révèlent l'efficacité de la stratégie d'incitation basée sur la réflexion et de la mise à l'échelle au moment du test grâce à l'augmentation des interactions pour les tâches web. Nous étudions également différentes politiques d'initialisation de l'apprentissage par renforcement en introduisant deux variantes, à savoir WebAgent-R1-Zero et WebAgent-R1-CoT, qui mettent en lumière l'importance de la phase d'entraînement d'échauffement (c'est-à-dire le clonage comportemental) et fournissent des insights sur l'intégration d'un raisonnement en chaîne de pensée (CoT) long dans les agents web.
English
While reinforcement learning (RL) has demonstrated remarkable success in
enhancing large language models (LLMs), it has primarily focused on single-turn
tasks such as solving math problems. Training effective web agents for
multi-turn interactions remains challenging due to the complexity of
long-horizon decision-making across dynamic web interfaces. In this work, we
present WebAgent-R1, a simple yet effective end-to-end multi-turn RL framework
for training web agents. It learns directly from online interactions with web
environments by asynchronously generating diverse trajectories, entirely guided
by binary rewards depending on task success. Experiments on the WebArena-Lite
benchmark demonstrate the effectiveness of WebAgent-R1, boosting the task
success rate of Qwen-2.5-3B from 6.1% to 33.9% and Llama-3.1-8B from 8.5% to
44.8%, significantly outperforming existing state-of-the-art methods and strong
proprietary models such as OpenAI o3. In-depth analyses reveal the
effectiveness of the thinking-based prompting strategy and test-time scaling
through increased interactions for web tasks. We further investigate different
RL initialization policies by introducing two variants, namely WebAgent-R1-Zero
and WebAgent-R1-CoT, which highlight the importance of the warm-up training
stage (i.e., behavior cloning) and provide insights on incorporating long
chain-of-thought (CoT) reasoning in web agents.Summary
AI-Generated Summary