Agent-R1: Krachtige LLM-agenten trainen met end-to-end reinforcement learning
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
November 18, 2025
Auteurs: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) worden steeds vaker onderzocht voor het bouwen van Agents die in staat zijn tot actieve interactie met hun omgeving (bijvoorbeeld via het gebruik van tools) om complexe problemen op te lossen. Reinforcement Learning (RL) wordt beschouwd als een kerntechnologie met aanzienlijk potentieel voor het trainen van dergelijke Agents; de effectieve toepassing van RL op LLM-agents bevindt zich echter nog in een vroeg stadium en kampt met aanzienlijke uitdagingen. Momenteel ontbreekt het in dit opkomende veld aan diepgaande verkenning van RL-benaderingen die specifiek zijn toegesneden op de LLM Agent-context, naast een schaarste aan flexibele en gemakkelijk uitbreidbare trainingsframeworks die hiervoor zijn ontworpen. Om dit gebied vooruit te helpen, herziet en verduidelijkt dit artikel eerst Reinforcement Learning-methodologieën voor LLM-agents door het Markov Decision Process (MDP) raamwerk systematisch uit te breiden om de belangrijkste componenten van een LLM Agent uitgebreid te definiëren. Ten tweede introduceren we Agent-R1, een modulair, flexibel en gebruiksvriendelijk trainingsframework voor RL-gebaseerde LLM-agents, ontworpen voor eenvoudige aanpassing aan diverse taken en interactieve omgevingen. We voerden experimenten uit op Multihop QA benchmarktaken, wat een eerste validatie oplevert voor de effectiviteit van onze voorgestelde methoden en framework.
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.