Verbind de punten: training van grote taalmodellen voor langlevende agenten met cross-domein generalisatie via reinforcement learning

Samenvatting

Dit werk presenteert een algemeen raamwerk voor het trainen van grote taalmodellen (LLMs) om "Connect the Dots" (CoD) uit te voeren, een metacapaciteit vereist voor agenten met een lange levenscyclus: wanneer een op LLM gebaseerde AI-agent wordt ingezet in een omgeving, lost deze een lange reeks taken op terwijl hij continu de omgeving verkent, leert van eigen ervaringen en iteratief zijn context over de omgeving bijwerkt, waardoor hij geleidelijk betere prestaties levert op toekomstige taken op basis van de bijgewerkte context. Belangrijke onderdelen van het CoD-raamwerk zijn: (1) algoritmeontwerp en infrastructuur voor end-to-end reinforcement learning (RL) met lange uitrolsequenties die solve-task- en update-context-episoden afwisselen; (2) taken en omgevingen die tijdens de training de beoogde metacapaciteit in LLMs stimuleren en uitlokken, evenals voor getrouwe meting van voortgang tijdens evaluatie. We presenteren proof-of-concept-implementaties van het CoD-raamwerk, waaronder een GRPO-stijl RL-algoritme met fijnmazige krediettoewijzing, evenals taken en omgevingen die zijn afgestemd op de beoogde metacapaciteit (in plaats van domeinspecifieke LLM-capaciteiten of standaard taak-voor-taak-RL). Empirische resultaten valideren de effectiviteit van end-to-end RL-training in de CoD-setting en tonen het potentieel aan voor generalisatie buiten de verdeling – binnen de trainingsdomeinen, over verschillende domeinen heen, en van CoD naar Ralph-loop-settings – van de uitgelokte metacapaciteit. Ons onderzoek naar CoD verbindt verschillende lijnen van eerder werk en opent nieuwe mogelijkheden voor het bevorderen van LLMs en AI-agenten. Om verder onderzoek en toepassingen te faciliteren, publiceren we onze implementaties op https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

English

This work presents a general framework for training large language models (LLMs) to "Connect the Dots" (CoD), a meta-capability required by long-lifecycle agents: as an LLM-based AI agent gets deployed in an environment, it solves a long sequence of tasks while continuously exploring the environment, learning from its own experiences, and iteratively self-updating its context about the environment, thereby achieving progressively better performance on future tasks conditioned on the updated context. Major components of the CoD framework include: (1) algorithm design and infrastructure for end-to-end reinforcement learning (RL) with long rollout sequences interleaving solve-task and update-context episodes; (2) tasks and environments for incentivizing and eliciting the targeted meta-capability in LLMs during training, as well as for faithfully measuring progress during evaluation. We present proof-of-concept implementations of the CoD framework, including a GRPO-style RL algorithm with fine-grained credit assignment, as well as tasks and environments tailored to the targeted meta-capability (rather than domain-specific LLM capabilities or standard task-by-task RL). Empirical results validate the efficacy of end-to-end RL training in the CoD setting, and demonstrate the potential for out-of-distribution generalization -- within the training domains, across different domains, and from CoD to Ralph-loop settings -- of the elicited meta-capability. Our investigation of CoD connects several lines of prior works, and opens up new opportunities for advancing LLMs and AI agents. To facilitate further research and applications, we release our implementations at https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.