ChatPaper.aiChatPaper

Leer de Ropes, Vertrouw dan op de Overwinningen: Zelfimitatie met Progressieve Verkenning voor Agent-Gestuurd Reinforcement Learning

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

September 26, 2025
Auteurs: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
cs.AI

Samenvatting

Reinforcement learning (RL) is het dominante paradigma voor het aanscherpen van strategische gereedschapsgebruikscapaciteiten van LLMs bij langetermijn, spaarzaam beloonde agenttaken, maar het wordt geconfronteerd met een fundamentele uitdaging van de afweging tussen exploratie en exploitatie. Bestaande studies stimuleren exploratie vanuit het perspectief van beleidsentropie, maar dergelijke mechanische entropiemaximalisatie is gevoelig voor RL-trainingsinstabiliteit vanwege de verschuiving van de distributie over meerdere beurten. In dit artikel richten we ons op de progressieve balans tussen exploratie en exploitatie onder begeleiding van de eigen ervaringen van de agent, zonder te vervallen in entropie-instorting of onbeperkte divergentie. We stellen SPEAR voor, een curriculumgebaseerd zelf-imitatieleren (SIL) recept voor het trainen van agentische LLMs. Het breidt het standaard SIL-raamwerk uit, waarbij een replay-buffer zelf gegenereerde veelbelovende trajecten opslaat voor off-policy updates, door geleidelijk de beleidsevolutie te sturen binnen een goed gebalanceerd bereik van entropie over verschillende fasen. Specifiek integreert onze aanpak een curriculum om het exploratieproces te beheren, waarbij intrinsieke beloningen worden gebruikt om vaardigheidsniveau-exploratie te bevorderen en actieniveau-exploratie te vergemakkelijken via SIL. In eerste instantie speelt de aanvullende gereedschapsoproepbeloning een cruciale rol bij de accumulatie van gereedschapsgebruikvaardigheden, waardoor brede blootstelling aan de onbekende distributies van de omgevingsfeedback mogelijk wordt met een opwaartse entropietrend. Naarmate de training vordert, wordt zelf-imitatie versterkt om bestaande succesvolle patronen uit herhaalde ervaringen te exploiteren voor vergelijkende actieniveau-exploratie, waardoor de oplossingsiteratie wordt versneld zonder onbeperkte entropiegroei. Om de training verder te stabiliseren, kalibreren we de voordelen van ervaringen in de replay-buffer opnieuw om mogelijke beleidsdrift aan te pakken. Regularisaties zoals het afkappen van tokens met een hoge covariantie tussen waarschijnlijkheid en voordeel worden geïntroduceerd in de trajectniveau-entropiecontrole om overmatig vertrouwen te beteugelen.
English
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balance under the guidance of the agent own experiences without succumbing to either entropy collapsing or runaway divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL) recipe for training agentic LLMs. It extends the vanilla SIL framework, where a replay buffer stores self-generated promising trajectories for off-policy update, by gradually steering the policy evolution within a well-balanced range of entropy across stages. Specifically, our approach incorporates a curriculum to manage the exploration process, utilizing intrinsic rewards to foster skill-level exploration and facilitating action-level exploration through SIL. At first, the auxiliary tool call reward plays a critical role in the accumulation of tool-use skills, enabling broad exposure to the unfamiliar distributions of the environment feedback with an upward entropy trend. As training progresses, self-imitation gets strengthened to exploit existing successful patterns from replayed experiences for comparative action-level exploration, accelerating solution iteration without unbounded entropy growth. To further stabilize training, we recalibrate the advantages of experiences in the replay buffer to address the potential policy drift. Reugularizations such as the clipping of tokens with high covariance between probability and advantage are introduced to the trajectory-level entropy control to curb over-confidence.
PDF294September 29, 2025