Agent Lightning: Обучение ЛЮБЫХ ИИ-агентов с использованием обучения с подкреплением
Agent Lightning: Train ANY AI Agents with Reinforcement Learning
August 5, 2025
Авторы: Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
cs.AI
Аннотация
Мы представляем Agent Lightning — гибкую и расширяемую платформу, которая позволяет проводить обучение крупных языковых моделей (LLM) с использованием методов обучения с подкреплением (Reinforcement Learning, RL) для любых ИИ-агентов. В отличие от существующих подходов, которые тесно связывают RL-обучение с конкретным агентом или используют конкатенацию последовательностей с маскированием, Agent Lightning обеспечивает полное разделение между выполнением агента и его обучением. Это позволяет легко интегрировать платформу с уже существующими агентами, разработанными различными способами (например, с использованием фреймворков LangChain, OpenAI Agents SDK, AutoGen или созданных с нуля), практически без изменений кода. Формулируя выполнение агента как марковский процесс принятия решений, мы определяем унифицированный интерфейс данных и предлагаем иерархический RL-алгоритм LightningRL, который включает модуль распределения заслуг, позволяющий декомпозировать траектории, сгенерированные ЛЮБЫМИ агентами, в обучающие переходы. Это позволяет RL справляться со сложной логикой взаимодействия, такой как сценарии с несколькими агентами и динамические рабочие процессы. В рамках системного дизайна мы вводим архитектуру разделения обучения и агента (Training-Agent Disaggregation) и интегрируем фреймворки наблюдаемости агентов в их среду выполнения, предоставляя стандартизированный интерфейс для тонкой настройки агентов. Эксперименты на задачах text-to-SQL, генерации с использованием поиска и использования математических инструментов демонстрируют стабильные и непрерывные улучшения, подчеркивая потенциал платформы для обучения и развертывания агентов в реальных условиях.
English
We present Agent Lightning, a flexible and extensible framework that enables
Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for
any AI agent. Unlike existing methods that tightly couple RL training with
agent or rely on sequence concatenation with masking, Agent Lightning achieves
complete decoupling between agent execution and training, allowing seamless
integration with existing agents developed via diverse ways (e.g., using
frameworks like LangChain, OpenAI Agents SDK, AutoGen, and building from
scratch) with almost ZERO code modifications. By formulating agent execution as
Markov decision process, we define an unified data interface and propose a
hierarchical RL algorithm, LightningRL, which contains a credit assignment
module, allowing us to decompose trajectories generated by ANY agents into
training transition. This enables RL to handle complex interaction logic, such
as multi-agent scenarios and dynamic workflows. For the system design, we
introduce a Training-Agent Disaggregation architecture, and brings agent
observability frameworks into agent runtime, providing a standardized agent
finetuning interface. Experiments across text-to-SQL, retrieval-augmented
generation, and math tool-use tasks demonstrate stable, continuous
improvements, showcasing the framework's potential for real-world agent
training and deployment.