Agent-R1: Training leistungsstarker LLM-Agenten mit End-to-End-Verstärkungslernen
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
November 18, 2025
papers.authors: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend für die Entwicklung von Agenten erforscht, die in der Lage sind, aktiv mit ihrer Umgebung zu interagieren (z. B. durch Werkzeugnutzung), um komplexe Probleme zu lösen. Reinforcement Learning (RL) wird als Schlüsseltechnologie mit großem Potenzial für das Training solcher Agenten angesehen; die effektive Anwendung von RL auf LLM-Agenten befindet sich jedoch noch in den Anfangsstadien und steht vor erheblichen Herausforderungen. Derzeit fehlt es in diesem aufstrebenden Forschungsgebiet an einer vertieften Erforschung von RL-Ansätzen, die speziell auf den Kontext von LLM-Agenten zugeschnitten sind, sowie an flexiblen und leicht erweiterbaren Trainingsframeworks für diesen Zweck. Um dieses Gebiet voranzubringen, geht dieses Papier zunächst auf Reinforcement-Learning-Methoden für LLM-Agenten ein, indem es den Markov-Entscheidungsprozess (MDP) systematisch erweitert, um die Schlüsselkomponenten eines LLM-Agenten umfassend zu definieren. Zweitens stellen wir Agent-R1 vor, ein modulares, flexibles und benutzerfreundliches Trainingsframework für RL-basierte LLM-Agenten, das für eine einfache Anpassung an verschiedene Aufgabenszenarien und interaktive Umgebungen konzipiert ist. Wir führten Experimente zu Benchmark-Aufgaben für Multihop-Fragebeantwortung (QA) durch, die eine erste Validierung der Wirksamkeit unserer vorgeschlagenen Methoden und unseres Frameworks liefern.
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.