Relier les points : Former les LLM pour des agents à longue durée de vie avec généralisation inter-domaines via l’apprentissage par renforcement

Résumé

Ce travail présente un cadre général pour entraîner les grands modèles de langage (LLMs) à « Connecter les points » (CoD), une méta-capacité requise par les agents à long cycle de vie : lorsqu’un agent IA basé sur un LLM est déployé dans un environnement, il résout une longue séquence de tâches tout en explorant continuellement l’environnement, en apprenant de ses propres expériences et en mettant à jour de manière itérative son contexte concernant l’environnement, améliorant ainsi progressivement ses performances sur les tâches futures conditionnées par le contexte mis à jour. Les composants majeurs du cadre CoD incluent : (1) la conception d’algorithmes et l’infrastructure pour l’apprentissage par renforcement (RL) de bout en bout avec de longues séquences de déroulement entrelaçant des épisodes de résolution de tâches et de mise à jour du contexte ; (2) des tâches et environnements pour inciter et susciter la méta-capacité ciblée dans les LLMs pendant l’entraînement, ainsi que pour mesurer fidèlement les progrès lors de l’évaluation. Nous présentons des implémentations de preuve de concept du cadre CoD, incluant un algorithme RL de style GRPO avec une attribution de crédit fine, ainsi que des tâches et environnements adaptés à la méta-capacité ciblée (plutôt qu’aux capacités LLM spécifiques à un domaine ou au RL tâche par tâche standard). Les résultats empiriques valident l’efficacité de l’entraînement RL de bout en bout dans le cadre CoD, et démontrent le potentiel de généralisation hors distribution — au sein des domaines d’entraînement, entre différents domaines, et du CoD aux paramètres de boucle de Ralph — de la méta-capacité suscitée. Notre investigation de CoD relie plusieurs lignes de travaux antérieurs et ouvre de nouvelles opportunités pour faire progresser les LLMs et les agents IA. Pour faciliter la recherche et les applications futures, nous publions nos implémentations à l’adresse https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

English

This work presents a general framework for training large language models (LLMs) to "Connect the Dots" (CoD), a meta-capability required by long-lifecycle agents: as an LLM-based AI agent gets deployed in an environment, it solves a long sequence of tasks while continuously exploring the environment, learning from its own experiences, and iteratively self-updating its context about the environment, thereby achieving progressively better performance on future tasks conditioned on the updated context. Major components of the CoD framework include: (1) algorithm design and infrastructure for end-to-end reinforcement learning (RL) with long rollout sequences interleaving solve-task and update-context episodes; (2) tasks and environments for incentivizing and eliciting the targeted meta-capability in LLMs during training, as well as for faithfully measuring progress during evaluation. We present proof-of-concept implementations of the CoD framework, including a GRPO-style RL algorithm with fine-grained credit assignment, as well as tasks and environments tailored to the targeted meta-capability (rather than domain-specific LLM capabilities or standard task-by-task RL). Empirical results validate the efficacy of end-to-end RL training in the CoD setting, and demonstrate the potential for out-of-distribution generalization -- within the training domains, across different domains, and from CoD to Ralph-loop settings -- of the elicited meta-capability. Our investigation of CoD connects several lines of prior works, and opens up new opportunities for advancing LLMs and AI agents. To facilitate further research and applications, we release our implementations at https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.