Соединить точки: обучение LLM для агентов с длительным жизненным циклом с междоменной генерализацией посредством обучения с подкреплением

Аннотация

Данная работа представляет общую структуру для обучения больших языковых моделей (LLM) способности «соединять точки» (CoD) — мета-компетенции, необходимой для агентов с длительным жизненным циклом: когда ИИ-агент на основе LLM развертывается в среде, он решает длинную последовательность задач, непрерывно исследуя среду, обучаясь на собственном опыте и итеративно обновляя свой контекст о среде, тем самым достигая все более высокой производительности при решении будущих задач с учетом обновленного контекста. Основные компоненты структуры CoD включают: (1) разработку алгоритмов и инфраструктуры для сквозного обучения с подкреплением (RL) с длинными последовательностями развертывания, чередующими эпизоды решения задач и обновления контекста; (2) задачи и среды для стимулирования и выявления целевой мета-компетенции в LLM в ходе обучения, а также для надежного измерения прогресса при оценке. Мы представляем прототипные реализации структуры CoD, включая RL-алгоритм в стиле GRPO с точным распределением кредитов, а также задачи и среды, адаптированные под целевую мета-компетенцию (а не под доменно-специфичные возможности LLM или стандартное RL «задача за задачей»). Эмпирические результаты подтверждают эффективность сквозного обучения с подкреплением в условиях CoD и демонстрируют потенциал для обобщения на распределения, выходящие за пределы обучающих данных — внутри обучающих доменов, между разными доменами, а также от CoD к настройкам Ralph-loop — для выявленной мета-компетенции. Наше исследование CoD связывает несколько направлений предыдущих работ и открывает новые возможности для развития LLM и ИИ-агентов. Для содействия дальнейшим исследованиям и приложениям мы публикуем наши реализации по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

English

This work presents a general framework for training large language models (LLMs) to "Connect the Dots" (CoD), a meta-capability required by long-lifecycle agents: as an LLM-based AI agent gets deployed in an environment, it solves a long sequence of tasks while continuously exploring the environment, learning from its own experiences, and iteratively self-updating its context about the environment, thereby achieving progressively better performance on future tasks conditioned on the updated context. Major components of the CoD framework include: (1) algorithm design and infrastructure for end-to-end reinforcement learning (RL) with long rollout sequences interleaving solve-task and update-context episodes; (2) tasks and environments for incentivizing and eliciting the targeted meta-capability in LLMs during training, as well as for faithfully measuring progress during evaluation. We present proof-of-concept implementations of the CoD framework, including a GRPO-style RL algorithm with fine-grained credit assignment, as well as tasks and environments tailored to the targeted meta-capability (rather than domain-specific LLM capabilities or standard task-by-task RL). Empirical results validate the efficacy of end-to-end RL training in the CoD setting, and demonstrate the potential for out-of-distribution generalization -- within the training domains, across different domains, and from CoD to Ralph-loop settings -- of the elicited meta-capability. Our investigation of CoD connects several lines of prior works, and opens up new opportunities for advancing LLMs and AI agents. To facilitate further research and applications, we release our implementations at https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.