Lerne die Grundlagen, dann vertraue den Erfolgen: Selbstimitation mit progressiver Exploration für agentenbasiertes Reinforcement Learning

papers.abstract

Verstärkungslernen (Reinforcement Learning, RL) ist das dominierende Paradigma zur Verbesserung der strategischen Fähigkeiten von großen Sprachmodellen (LLMs) bei langfristigen, spärlich belohnten Agentenaufgaben. Es steht jedoch vor der grundlegenden Herausforderung des Exploration-Exploitation-Trade-offs. Bisherige Studien fördern die Exploration durch die Linse der Policy-Entropie, doch eine solche mechanische Entropiemaximierung neigt aufgrund von mehrstufigen Verteilungsverschiebungen zu Instabilität im RL-Training. In diesem Artikel zielen wir auf eine progressive Balance zwischen Exploration und Exploitation unter der Leitung der eigenen Erfahrungen des Agenten ab, ohne in Entropiekollaps oder unkontrollierte Divergenz zu verfallen. Wir schlagen SPEAR vor, ein curriculum-basiertes Selbstimitationslernverfahren (Self-Imitation Learning, SIL) für das Training von agentenbasierten LLMs. Es erweitert das herkömmliche SIL-Framework, bei dem ein Replay-Puffer selbstgenerierte vielversprechende Trajektorien für Off-Policy-Updates speichert, indem es die Policy-Entwicklung schrittweise innerhalb eines ausgewogenen Entropiebereichs über verschiedene Phasen hinweg steuert. Konkret integriert unser Ansatz ein Curriculum zur Steuerung des Explorationsprozesses, nutzt intrinsische Belohnungen zur Förderung der Fähigkeitsebene der Exploration und ermöglicht Aktionsebenen-Exploration durch SIL. Anfangs spielt die zusätzliche Werkzeugaufrufbelohnung eine entscheidende Rolle bei der Anhäufung von Werkzeugnutzungsfähigkeiten, wodurch eine breite Exposition gegenüber den unbekannten Verteilungen der Umweltrückmeldungen mit einem ansteigenden Entropietrend ermöglicht wird. Mit fortschreitendem Training wird die Selbstimitation verstärkt, um bestehende erfolgreiche Muster aus den wiedergegebenen Erfahrungen für vergleichende Aktionsebenen-Exploitation zu nutzen, wodurch die Lösungsiteration beschleunigt wird, ohne dass die Entropie unbegrenzt wächst. Um das Training weiter zu stabilisieren, kalibrieren wir die Vorteile der Erfahrungen im Replay-Puffer neu, um potenzielle Policy-Drift zu adressieren. Regularisierungen wie das Clipping von Tokens mit hoher Kovarianz zwischen Wahrscheinlichkeit und Vorteil werden in die Trajektorienebenen-Entropiekontrolle eingeführt, um Überzuversicht einzudämmen.

English

Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balance under the guidance of the agent own experiences without succumbing to either entropy collapsing or runaway divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL) recipe for training agentic LLMs. It extends the vanilla SIL framework, where a replay buffer stores self-generated promising trajectories for off-policy update, by gradually steering the policy evolution within a well-balanced range of entropy across stages. Specifically, our approach incorporates a curriculum to manage the exploration process, utilizing intrinsic rewards to foster skill-level exploration and facilitating action-level exploration through SIL. At first, the auxiliary tool call reward plays a critical role in the accumulation of tool-use skills, enabling broad exposure to the unfamiliar distributions of the environment feedback with an upward entropy trend. As training progresses, self-imitation gets strengthened to exploit existing successful patterns from replayed experiences for comparative action-level exploration, accelerating solution iteration without unbounded entropy growth. To further stabilize training, we recalibrate the advantages of experiences in the replay buffer to address the potential policy drift. Reugularizations such as the clipping of tokens with high covariance between probability and advantage are introduced to the trajectory-level entropy control to curb over-confidence.

Lerne die Grundlagen, dann vertraue den Erfolgen: Selbstimitation mit progressiver Exploration für agentenbasiertes Reinforcement Learning

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

papers.abstract

Support