Agent Lightning: Addestrare QUALSIASI Agente AI con Apprendimento per Rinforzo
Agent Lightning: Train ANY AI Agents with Reinforcement Learning
August 5, 2025
Autori: Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
cs.AI
Abstract
Presentiamo Agent Lightning, un framework flessibile ed estendibile che abilita l'addestramento basato su Reinforcement Learning (RL) di Large Language Models (LLMs) per qualsiasi agente AI. A differenza dei metodi esistenti che accoppiano strettamente l'addestramento RL con l'agente o si affidano alla concatenazione di sequenze con mascheramento, Agent Lightning raggiunge un completo disaccoppiamento tra esecuzione e addestramento dell'agente, consentendo un'integrazione senza soluzione di continuità con agenti esistenti sviluppati in modi diversi (ad esempio, utilizzando framework come LangChain, OpenAI Agents SDK, AutoGen, e costruendo da zero) con quasi ZERO modifiche al codice. Formulando l'esecuzione dell'agente come un processo decisionale di Markov, definiamo un'interfaccia dati unificata e proponiamo un algoritmo RL gerarchico, LightningRL, che contiene un modulo di assegnazione del credito, permettendoci di scomporre le traiettorie generate da QUALSIASI agente in transizioni di addestramento. Ciò consente all'RL di gestire logiche di interazione complesse, come scenari multi-agente e flussi di lavoro dinamici. Per il design del sistema, introduciamo un'architettura di Disaggregazione Training-Agent e portiamo i framework di osservabilità degli agenti nel runtime dell'agente, fornendo un'interfaccia standardizzata per il fine-tuning degli agenti. Esperimenti su task di text-to-SQL, generazione aumentata da retrieval e utilizzo di strumenti matematici dimostrano miglioramenti stabili e continui, mostrando il potenziale del framework per l'addestramento e il dispiegamento di agenti nel mondo reale.
English
We present Agent Lightning, a flexible and extensible framework that enables
Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for
any AI agent. Unlike existing methods that tightly couple RL training with
agent or rely on sequence concatenation with masking, Agent Lightning achieves
complete decoupling between agent execution and training, allowing seamless
integration with existing agents developed via diverse ways (e.g., using
frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from
scratch) with almost ZERO code modifications. By formulating agent execution as
Markov decision process, we define an unified data interface and propose a
hierarchical RL algorithm, LightningRL, which contains a credit assignment
module, allowing us to decompose trajectories generated by ANY agents into
training transition. This enables RL to handle complex interaction logic, such
as multi-agent scenarios and dynamic workflows. For the system design, we
introduce a Training-Agent Disaggregation architecture, and brings agent
observability frameworks into agent runtime, providing a standardized agent
finetuning interface. Experiments across text-to-SQL, retrieval-augmented
generation, and math tool-use tasks demonstrate stable, continuous
improvements, showcasing the framework's potential for real-world agent
training and deployment.