ChatPaper.aiChatPaper

Agent Lightning: Entrena CUALQUIER Agente de IA con Aprendizaje por Refuerzo

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

August 5, 2025
Autores: Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
cs.AI

Resumen

Presentamos Agent Lightning, un marco flexible y extensible que permite el entrenamiento basado en Aprendizaje por Refuerzo (RL) de Modelos de Lenguaje de Gran Escala (LLMs) para cualquier agente de IA. A diferencia de los métodos existentes que acoplan estrechamente el entrenamiento de RL con el agente o dependen de la concatenación de secuencias con enmascaramiento, Agent Lightning logra una completa desvinculación entre la ejecución y el entrenamiento del agente, permitiendo una integración sin problemas con agentes existentes desarrollados de diversas maneras (por ejemplo, utilizando marcos como LangChain, OpenAI Agents SDK, AutoGen, o construyéndolos desde cero) con casi CERO modificaciones de código. Al formular la ejecución del agente como un proceso de decisión de Markov, definimos una interfaz de datos unificada y proponemos un algoritmo de RL jerárquico, LightningRL, que incluye un módulo de asignación de créditos, permitiéndonos descomponer las trayectorias generadas por CUALQUIER agente en transiciones de entrenamiento. Esto permite que el RL maneje lógicas de interacción complejas, como escenarios multiagente y flujos de trabajo dinámicos. Para el diseño del sistema, introducimos una arquitectura de Desagregación Entrenamiento-Agente e incorporamos marcos de observabilidad de agentes en el tiempo de ejecución del agente, proporcionando una interfaz estandarizada de ajuste fino de agentes. Los experimentos en tareas de texto a SQL, generación aumentada con recuperación y uso de herramientas matemáticas demuestran mejoras estables y continuas, mostrando el potencial del marco para el entrenamiento y despliegue de agentes en el mundo real.
English
We present Agent Lightning, a flexible and extensible framework that enables Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for any AI agent. Unlike existing methods that tightly couple RL training with agent or rely on sequence concatenation with masking, Agent Lightning achieves complete decoupling between agent execution and training, allowing seamless integration with existing agents developed via diverse ways (e.g., using frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from scratch) with almost ZERO code modifications. By formulating agent execution as Markov decision process, we define an unified data interface and propose a hierarchical RL algorithm, LightningRL, which contains a credit assignment module, allowing us to decompose trajectories generated by ANY agents into training transition. This enables RL to handle complex interaction logic, such as multi-agent scenarios and dynamic workflows. For the system design, we introduce a Training-Agent Disaggregation architecture, and brings agent observability frameworks into agent runtime, providing a standardized agent finetuning interface. Experiments across text-to-SQL, retrieval-augmented generation, and math tool-use tasks demonstrate stable, continuous improvements, showcasing the framework's potential for real-world agent training and deployment.
PDF523August 7, 2025