ChatPaper.aiChatPaper

Agente Lightning: Treine QUALQUER Agente de IA com Aprendizado por Reforço

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

August 5, 2025
Autores: Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
cs.AI

Resumo

Apresentamos o Agent Lightning, um framework flexível e extensível que possibilita o treinamento de Modelos de Linguagem de Grande Escala (LLMs) baseado em Aprendizado por Reforço (RL) para qualquer agente de IA. Diferente de métodos existentes que acoplam rigidamente o treinamento de RL ao agente ou dependem de concatenação de sequências com máscaras, o Agent Lightning alcança uma completa dissociação entre a execução e o treinamento do agente, permitindo uma integração perfeita com agentes existentes desenvolvidos de diversas maneiras (por exemplo, utilizando frameworks como LangChain, OpenAI Agents SDK, AutoGen, ou construídos do zero) com quase ZERO modificações de código. Ao formular a execução do agente como um processo de decisão de Markov, definimos uma interface de dados unificada e propomos um algoritmo hierárquico de RL, o LightningRL, que contém um módulo de atribuição de crédito, permitindo-nos decompor trajetórias geradas por QUALQUER agente em transições de treinamento. Isso permite que o RL lide com lógicas de interação complexas, como cenários multiagentes e fluxos de trabalho dinâmicos. Para o design do sistema, introduzimos uma arquitetura de Desagregação Treinamento-Agente e incorporamos frameworks de observabilidade de agentes no tempo de execução do agente, fornecendo uma interface padronizada de ajuste fino de agentes. Experimentos em tarefas de texto para SQL, geração aumentada por recuperação e uso de ferramentas matemáticas demonstram melhorias estáveis e contínuas, destacando o potencial do framework para o treinamento e implantação de agentes no mundo real.
English
We present Agent Lightning, a flexible and extensible framework that enables Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for any AI agent. Unlike existing methods that tightly couple RL training with agent or rely on sequence concatenation with masking, Agent Lightning achieves complete decoupling between agent execution and training, allowing seamless integration with existing agents developed via diverse ways (e.g., using frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from scratch) with almost ZERO code modifications. By formulating agent execution as Markov decision process, we define an unified data interface and propose a hierarchical RL algorithm, LightningRL, which contains a credit assignment module, allowing us to decompose trajectories generated by ANY agents into training transition. This enables RL to handle complex interaction logic, such as multi-agent scenarios and dynamic workflows. For the system design, we introduce a Training-Agent Disaggregation architecture, and brings agent observability frameworks into agent runtime, providing a standardized agent finetuning interface. Experiments across text-to-SQL, retrieval-augmented generation, and math tool-use tasks demonstrate stable, continuous improvements, showcasing the framework's potential for real-world agent training and deployment.
PDF705August 7, 2025