Agent Lightning: Train ALLE AI-agents met Reinforcement Learning

Samenvatting

We presenteren Agent Lightning, een flexibel en uitbreidbaar framework dat Reinforcement Learning (RL)-gebaseerde training van Large Language Models (LLMs) mogelijk maakt voor elk AI-agent. In tegenstelling tot bestaande methoden die RL-training nauw koppelen aan een specifieke agent of afhankelijk zijn van sequentieconcatenatie met masking, bereikt Agent Lightning een volledige ontkoppeling tussen agentuitvoering en training. Dit maakt naadloze integratie mogelijk met bestaande agents die op diverse manieren zijn ontwikkeld (bijvoorbeeld met frameworks zoals LangChain, OpenAI Agents SDK, AutoGen, en vanaf scratch gebouwd) met vrijwel GEEN codeaanpassingen. Door agentuitvoering te formuleren als een Markov-beslissingsproces, definiëren we een uniforme data-interface en stellen we een hiërarchisch RL-algoritme voor, LightningRL, dat een credit assignment-module bevat. Hierdoor kunnen we trajecten die door ELKE agent worden gegenereerd, ontbinden in trainingsovergangen. Dit stelt RL in staat om complexe interactielogica te verwerken, zoals multi-agent scenario's en dynamische workflows. Voor het systeemontwerp introduceren we een Training-Agent Disaggregation-architectuur en integreren we agent-observability frameworks in de agentruntime, wat een gestandaardiseerd interface biedt voor het finetunen van agents. Experimenten met tekst-naar-SQL, retrieval-augmented generation en wiskundige tool-use taken tonen stabiele, continue verbeteringen, wat het potentieel van het framework aantoont voor training en implementatie van agents in de praktijk.

English

We present Agent Lightning, a flexible and extensible framework that enables Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for any AI agent. Unlike existing methods that tightly couple RL training with agent or rely on sequence concatenation with masking, Agent Lightning achieves complete decoupling between agent execution and training, allowing seamless integration with existing agents developed via diverse ways (e.g., using frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from scratch) with almost ZERO code modifications. By formulating agent execution as Markov decision process, we define an unified data interface and propose a hierarchical RL algorithm, LightningRL, which contains a credit assignment module, allowing us to decompose trajectories generated by ANY agents into training transition. This enables RL to handle complex interaction logic, such as multi-agent scenarios and dynamic workflows. For the system design, we introduce a Training-Agent Disaggregation architecture, and brings agent observability frameworks into agent runtime, providing a standardized agent finetuning interface. Experiments across text-to-SQL, retrieval-augmented generation, and math tool-use tasks demonstrate stable, continuous improvements, showcasing the framework's potential for real-world agent training and deployment.

Agent Lightning: Train ALLE AI-agents met Reinforcement Learning

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Samenvatting

Support