Die Punkte verbinden: Training von LLMs für langlebige Agenten mit domänenübergreifender Generalisierung mittels Reinforcement Learning

Zusammenfassung

Diese Arbeit stellt ein allgemeines Framework für das Training großer Sprachmodelle (Large Language Models, LLMs) zur "Connect the Dots" (CoD) vor, einer Metafähigkeit, die für langlebige Agenten erforderlich ist: Wenn ein LLM-basierter KI-Agent in einer Umgebung eingesetzt wird, löst er eine lange Sequenz von Aufgaben, während er kontinuierlich die Umgebung erkundet, aus seinen eigenen Erfahrungen lernt und seinen Kontext über die Umgebung iterativ selbst aktualisiert, wodurch er auf zukünftigen Aufgaben, die auf dem aktualisierten Kontext basieren, schrittweise bessere Leistungen erzielt. Zu den Hauptkomponenten des CoD-Frameworks gehören: (1) Algorithmusdesign und Infrastruktur für End-to-End Reinforcement Learning (RL) mit langen Rollout-Sequenzen, die Solve-Task- und Update-Context-Episoden miteinander verweben; (2) Aufgaben und Umgebungen, um die angestrebte Metafähigkeit in LLMs während des Trainings zu incentivieren und zu fördern sowie um Fortschritte während der Evaluierung getreu zu messen. Wir stellen Proof-of-Concept-Implementierungen des CoD-Frameworks vor, darunter einen GRPO-artigen RL-Algorithmus mit feinkörniger Kreditzuweisung sowie Aufgaben und Umgebungen, die auf die angestrebte Metafähigkeit zugeschnitten sind (und nicht auf domänenspezifische LLM-Fähigkeiten oder standardmäßiges aufgabenweises RL). Empirische Ergebnisse bestätigen die Wirksamkeit des End-to-End-RL-Trainings im CoD-Setting und demonstrieren das Potenzial für eine Verallgemeinerung außerhalb der Verteilung – innerhalb der Trainingsdomänen, über verschiedene Domänen hinweg und von CoD zu Ralph-Loop-Settings – der induzierten Metafähigkeit. Unsere Untersuchung von CoD verbindet mehrere Linien früherer Arbeiten und eröffnet neue Möglichkeiten für die Weiterentwicklung von LLMs und KI-Agenten. Um weitere Forschung und Anwendungen zu erleichtern, veröffentlichen wir unsere Implementierungen unter https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

English

This work presents a general framework for training large language models (LLMs) to "Connect the Dots" (CoD), a meta-capability required by long-lifecycle agents: as an LLM-based AI agent gets deployed in an environment, it solves a long sequence of tasks while continuously exploring the environment, learning from its own experiences, and iteratively self-updating its context about the environment, thereby achieving progressively better performance on future tasks conditioned on the updated context. Major components of the CoD framework include: (1) algorithm design and infrastructure for end-to-end reinforcement learning (RL) with long rollout sequences interleaving solve-task and update-context episodes; (2) tasks and environments for incentivizing and eliciting the targeted meta-capability in LLMs during training, as well as for faithfully measuring progress during evaluation. We present proof-of-concept implementations of the CoD framework, including a GRPO-style RL algorithm with fine-grained credit assignment, as well as tasks and environments tailored to the targeted meta-capability (rather than domain-specific LLM capabilities or standard task-by-task RL). Empirical results validate the efficacy of end-to-end RL training in the CoD setting, and demonstrate the potential for out-of-distribution generalization -- within the training domains, across different domains, and from CoD to Ralph-loop settings -- of the elicited meta-capability. Our investigation of CoD connects several lines of prior works, and opens up new opportunities for advancing LLMs and AI agents. To facilitate further research and applications, we release our implementations at https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.