Agent Lightning: Train ALLE AI-agents met Reinforcement Learning
Agent Lightning: Train ANY AI Agents with Reinforcement Learning
August 5, 2025
Auteurs: Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
cs.AI
Samenvatting
We presenteren Agent Lightning, een flexibel en uitbreidbaar framework dat Reinforcement Learning (RL)-gebaseerde training van Large Language Models (LLMs) mogelijk maakt voor elk AI-agent. In tegenstelling tot bestaande methoden die RL-training nauw koppelen aan een specifieke agent of afhankelijk zijn van sequentieconcatenatie met masking, bereikt Agent Lightning een volledige ontkoppeling tussen agentuitvoering en training. Dit maakt naadloze integratie mogelijk met bestaande agents die op diverse manieren zijn ontwikkeld (bijvoorbeeld met frameworks zoals LangChain, OpenAI Agents SDK, AutoGen, en vanaf scratch gebouwd) met vrijwel GEEN codeaanpassingen. Door agentuitvoering te formuleren als een Markov-beslissingsproces, definiëren we een uniforme data-interface en stellen we een hiërarchisch RL-algoritme voor, LightningRL, dat een credit assignment-module bevat. Hierdoor kunnen we trajecten die door ELKE agent worden gegenereerd, ontbinden in trainingsovergangen. Dit stelt RL in staat om complexe interactielogica te verwerken, zoals multi-agent scenario's en dynamische workflows. Voor het systeemontwerp introduceren we een Training-Agent Disaggregation-architectuur en integreren we agent-observability frameworks in de agentruntime, wat een gestandaardiseerd interface biedt voor het finetunen van agents. Experimenten met tekst-naar-SQL, retrieval-augmented generation en wiskundige tool-use taken tonen stabiele, continue verbeteringen, wat het potentieel van het framework aantoont voor training en implementatie van agents in de praktijk.
English
We present Agent Lightning, a flexible and extensible framework that enables
Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for
any AI agent. Unlike existing methods that tightly couple RL training with
agent or rely on sequence concatenation with masking, Agent Lightning achieves
complete decoupling between agent execution and training, allowing seamless
integration with existing agents developed via diverse ways (e.g., using
frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from
scratch) with almost ZERO code modifications. By formulating agent execution as
Markov decision process, we define an unified data interface and propose a
hierarchical RL algorithm, LightningRL, which contains a credit assignment
module, allowing us to decompose trajectories generated by ANY agents into
training transition. This enables RL to handle complex interaction logic, such
as multi-agent scenarios and dynamic workflows. For the system design, we
introduce a Training-Agent Disaggregation architecture, and brings agent
observability frameworks into agent runtime, providing a standardized agent
finetuning interface. Experiments across text-to-SQL, retrieval-augmented
generation, and math tool-use tasks demonstrate stable, continuous
improvements, showcasing the framework's potential for real-world agent
training and deployment.