Agent Lightning: Trainiere BELIEBIGE KI-Agenten mit Reinforcement Learning
Agent Lightning: Train ANY AI Agents with Reinforcement Learning
August 5, 2025
papers.authors: Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
cs.AI
papers.abstract
Wir präsentieren Agent Lightning, ein flexibles und erweiterbares Framework, das das Reinforcement Learning (RL)-basierte Training von Large Language Models (LLMs) für beliebige KI-Agenten ermöglicht. Im Gegensatz zu bestehenden Methoden, die RL-Training eng mit dem Agenten koppeln oder auf Sequenzverkettung mit Maskierung angewiesen sind, erreicht Agent Lightning eine vollständige Entkopplung zwischen Agentenausführung und Training. Dies ermöglicht eine nahtlose Integration mit bestehenden Agenten, die auf unterschiedliche Weise entwickelt wurden (z. B. mit Frameworks wie LangChain, OpenAI Agents SDK, AutoGen oder von Grund auf neu), ohne dass nahezu KEINE Codeänderungen erforderlich sind. Indem wir die Agentenausführung als Markov-Entscheidungsprozess formulieren, definieren wir eine einheitliche Datenschnittstelle und schlagen einen hierarchischen RL-Algorithmus, LightningRL, vor, der ein Credit-Assignment-Modul enthält. Dies ermöglicht es uns, Trajektorien, die von BELIEBIGEN Agenten generiert werden, in Trainingsübergänge zu zerlegen. Dadurch kann RL komplexe Interaktionslogiken wie Multi-Agenten-Szenarien und dynamische Workflows bewältigen. Für das Systemdesign führen wir eine Training-Agent-Disaggregation-Architektur ein und integrieren Agenten-Beobachtbarkeitsframeworks in die Laufzeitumgebung des Agenten, wodurch eine standardisierte Feinabstimmungsschnittstelle bereitgestellt wird. Experimente in den Bereichen Text-to-SQL, retrieval-augmentierte Generierung und mathematische Werkzeugnutzung zeigen stabile, kontinuierliche Verbesserungen und demonstrieren das Potenzial des Frameworks für das Training und den Einsatz von Agenten in der Praxis.
English
We present Agent Lightning, a flexible and extensible framework that enables
Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for
any AI agent. Unlike existing methods that tightly couple RL training with
agent or rely on sequence concatenation with masking, Agent Lightning achieves
complete decoupling between agent execution and training, allowing seamless
integration with existing agents developed via diverse ways (e.g., using
frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from
scratch) with almost ZERO code modifications. By formulating agent execution as
Markov decision process, we define an unified data interface and propose a
hierarchical RL algorithm, LightningRL, which contains a credit assignment
module, allowing us to decompose trajectories generated by ANY agents into
training transition. This enables RL to handle complex interaction logic, such
as multi-agent scenarios and dynamic workflows. For the system design, we
introduce a Training-Agent Disaggregation architecture, and brings agent
observability frameworks into agent runtime, providing a standardized agent
finetuning interface. Experiments across text-to-SQL, retrieval-augmented
generation, and math tool-use tasks demonstrate stable, continuous
improvements, showcasing the framework's potential for real-world agent
training and deployment.