ChatPaper.aiChatPaper

Agent Lightning : Entraînez TOUS les agents IA avec l'apprentissage par renforcement

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

August 5, 2025
papers.authors: Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
cs.AI

papers.abstract

Nous présentons Agent Lightning, un cadre flexible et extensible qui permet l'entraînement par apprentissage par renforcement (Reinforcement Learning, RL) de modèles de langage de grande taille (Large Language Models, LLMs) pour tout agent d'IA. Contrairement aux méthodes existantes qui couplent étroitement l'entraînement RL avec l'agent ou reposent sur la concaténation de séquences avec masquage, Agent Lightning réalise une découplage complet entre l'exécution et l'entraînement de l'agent, permettant une intégration transparente avec des agents existants développés de diverses manières (par exemple, en utilisant des cadres comme LangChain, OpenAI Agents SDK, AutoGen, ou en partant de zéro) avec quasiment AUCUNE modification de code. En formulant l'exécution de l'agent comme un processus de décision markovien, nous définissons une interface de données unifiée et proposons un algorithme RL hiérarchique, LightningRL, qui inclut un module d'attribution de crédit, nous permettant de décomposer les trajectoires générées par TOUS les agents en transitions d'entraînement. Cela permet au RL de gérer une logique d'interaction complexe, comme les scénarios multi-agents et les workflows dynamiques. Pour la conception du système, nous introduisons une architecture de Disaggregation Entraînement-Agent, et intégrons des cadres d'observabilité des agents dans le runtime de l'agent, fournissant une interface standardisée pour le fine-tuning des agents. Les expériences menées sur des tâches de text-to-SQL, de génération augmentée par récupération, et d'utilisation d'outils mathématiques démontrent des améliorations stables et continues, mettant en évidence le potentiel du cadre pour l'entraînement et le déploiement d'agents dans des scénarios réels.
English
We present Agent Lightning, a flexible and extensible framework that enables Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for any AI agent. Unlike existing methods that tightly couple RL training with agent or rely on sequence concatenation with masking, Agent Lightning achieves complete decoupling between agent execution and training, allowing seamless integration with existing agents developed via diverse ways (e.g., using frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from scratch) with almost ZERO code modifications. By formulating agent execution as Markov decision process, we define an unified data interface and propose a hierarchical RL algorithm, LightningRL, which contains a credit assignment module, allowing us to decompose trajectories generated by ANY agents into training transition. This enables RL to handle complex interaction logic, such as multi-agent scenarios and dynamic workflows. For the system design, we introduce a Training-Agent Disaggregation architecture, and brings agent observability frameworks into agent runtime, providing a standardized agent finetuning interface. Experiments across text-to-SQL, retrieval-augmented generation, and math tool-use tasks demonstrate stable, continuous improvements, showcasing the framework's potential for real-world agent training and deployment.
PDF523August 7, 2025