Komplementäres Bestärkendes Lernen

Zusammenfassung

Reinforcement Learning (RL) hat sich als leistungsstarkes Paradigma für das Training von LLM-basierten Agenten etabliert, bleibt jedoch durch eine geringe Stichprobeneffizienz eingeschränkt. Diese resultiert nicht nur aus spärlichem Ergebnis-Feedback, sondern auch aus der Unfähigkeit des Agenten, frühere Erfahrungen über Episoden hinweg zu nutzen. Während die Erweiterung von Agenten um historische Erfahrungen einen vielversprechenden Ansatz darstellt, leiden bestehende Methoden unter einer entscheidenden Schwäche: Die aus der Vergangenheit destillierte Erfahrung wird entweder statisch gespeichert oder entwickelt sich nicht gemeinsam mit dem sich verbessernden Akteur weiter. Dies führt zu einer fortschreitenden Fehlausrichtung zwischen der Erfahrung und den sich entwickelnden Fähigkeiten des Akteurs, was deren Nützlichkeit im Trainingsverlauf mindert. Inspiriert von komplementären Lernsystemen in den Neurowissenschaften stellen wir Complementary RL vor, um eine nahtlose Ko-Evolution eines Erfahrungsextraktors und eines Policy-Akteurs innerhalb des RL-Optimierungsloops zu erreichen. Konkret wird der Akteur über spärliche, ergebnisbasierte Belohnungen optimiert, während der Erfahrungsextraktor danach optimiert wird, ob seine destillierten Erfahrungen nachweislich zum Erfolg des Akteurs beitragen. Dadurch entwickelt sich seine Erfahrungsmanagement-Strategie im Gleichschritt mit den wachsenden Fähigkeiten des Akteurs. Empirisch übertrifft Complementary RL ergebnisbasierte, agentenbasierte RL-Baselines, die nicht aus Erfahrung lernen, und erzielt eine 10 %ige Leistungssteigerung in Einzelaufgaben-Szenarien sowie eine robuste Skalierbarkeit in Multi-Task-Umgebungen. Diese Ergebnisse etablieren Complementary RL als ein Paradigma für effizientes, erfahrungsgestütztes Agentenlernen.

English

Reinforcement Learning (RL) has emerged as a powerful paradigm for training LLM-based agents, yet remains limited by low sample efficiency, stemming not only from sparse outcome feedback but also from the agent's inability to leverage prior experience across episodes. While augmenting agents with historical experience offers a promising remedy, existing approaches suffer from a critical weakness: the experience distilled from history is either stored statically or fail to coevolve with the improving actor, causing a progressive misalignment between the experience and the actor's evolving capability that diminishes its utility over the course of training. Inspired by complementary learning systems in neuroscience, we present Complementary RL to achieve seamless co-evolution of an experience extractor and a policy actor within the RL optimization loop. Specifically, the actor is optimized via sparse outcome-based rewards, while the experience extractor is optimized according to whether its distilled experiences demonstrably contribute to the actor's success, thereby evolving its experience management strategy in lockstep with the actor's growing capabilities. Empirically, Complementary RL outperforms outcome-based agentic RL baselines that do not learn from experience, achieving 10% performance improvement in single-task scenarios and exhibits robust scalability in multi-task settings. These results establish Complementary RL as a paradigm for efficient experience-driven agent learning.

Komplementäres Bestärkendes Lernen

Complementary Reinforcement Learning

Zusammenfassung

Support