Conectar los puntos: Entrenamiento de LLMs para Agentes de Ciclo de Vida Largo con Generalización entre Dominios mediante Aprendizaje por Refuerzo

Resumen

Este trabajo presenta un marco general para entrenar modelos de lenguaje de gran escala (LLMs) a "Conectar los Puntos" (CoD), una meta-capacidad requerida por agentes de ciclo de vida largo: a medida que un agente de IA basado en LLM se despliega en un entorno, resuelve una larga secuencia de tareas mientras explora continuamente el entorno, aprende de sus propias experiencias y actualiza iterativamente su contexto sobre el entorno, logrando así un rendimiento progresivamente mejor en tareas futuras condicionadas por el contexto actualizado. Los componentes principales del marco CoD incluyen: (1) diseño de algoritmos e infraestructura para aprendizaje por refuerzo (RL) de extremo a extremo con secuencias largas de despliegue que intercalan episodios de resolución de tareas y actualización de contexto; (2) tareas y entornos para incentivar y elicitar la meta-capacidad objetivo en los LLMs durante el entrenamiento, así como para medir fielmente el progreso durante la evaluación. Presentamos implementaciones de prueba de concepto del marco CoD, incluyendo un algoritmo RL de estilo GRPO con asignación de crédito detallada, así como tareas y entornos adaptados a la meta-capacidad objetivo (en lugar de capacidades LLM específicas de dominio o RL estándar tarea por tarea). Los resultados empíricos validan la eficacia del entrenamiento RL de extremo a extremo en el entorno CoD, y demuestran el potencial de generalización fuera de la distribución —dentro de los dominios de entrenamiento, a través de diferentes dominios, y desde CoD a entornos Ralph-loop— de la meta-capacidad elicitada. Nuestra investigación de CoD conecta varias líneas de trabajos previos y abre nuevas oportunidades para avanzar en LLMs y agentes de IA. Para facilitar futuras investigaciones y aplicaciones, publicamos nuestras implementaciones en https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

English

This work presents a general framework for training large language models (LLMs) to "Connect the Dots" (CoD), a meta-capability required by long-lifecycle agents: as an LLM-based AI agent gets deployed in an environment, it solves a long sequence of tasks while continuously exploring the environment, learning from its own experiences, and iteratively self-updating its context about the environment, thereby achieving progressively better performance on future tasks conditioned on the updated context. Major components of the CoD framework include: (1) algorithm design and infrastructure for end-to-end reinforcement learning (RL) with long rollout sequences interleaving solve-task and update-context episodes; (2) tasks and environments for incentivizing and eliciting the targeted meta-capability in LLMs during training, as well as for faithfully measuring progress during evaluation. We present proof-of-concept implementations of the CoD framework, including a GRPO-style RL algorithm with fine-grained credit assignment, as well as tasks and environments tailored to the targeted meta-capability (rather than domain-specific LLM capabilities or standard task-by-task RL). Empirical results validate the efficacy of end-to-end RL training in the CoD setting, and demonstrate the potential for out-of-distribution generalization -- within the training domains, across different domains, and from CoD to Ralph-loop settings -- of the elicited meta-capability. Our investigation of CoD connects several lines of prior works, and opens up new opportunities for advancing LLMs and AI agents. To facilitate further research and applications, we release our implementations at https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.