Apprendre les Bases, Puis Faire Confiance aux Victoires : Auto-imitation avec Exploration Progressive pour l'Apprentissage par Renforcement Agentique
Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
September 26, 2025
papers.authors: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) constitue le paradigme dominant pour affiner les capacités d'utilisation stratégique d'outils des modèles de langage de grande taille (LLMs) dans des tâches d'agents à horizon long et à récompenses éparses. Cependant, il se heurte à un défi fondamental : l'arbitrage entre exploration et exploitation. Les études existantes stimulent l'exploration à travers la lentille de l'entropie de la politique, mais une telle maximisation mécanique de l'entropie est sujette à une instabilité de l'entraînement RL en raison des décalages de distribution multi-tours. Dans cet article, nous visons un équilibre progressif entre exploration et exploitation guidé par les expériences propres de l'agent, sans succomber ni à un effondrement de l'entropie ni à une divergence incontrôlée. Nous proposons SPEAR, une méthode d'apprentissage par auto-imitation (SIL) basée sur un curriculum pour entraîner des LLMs agentiques. Elle étend le cadre SIL classique, où un tampon de relecture stocke des trajectoires prometteuses auto-générées pour des mises à jour hors politique, en orientant progressivement l'évolution de la politique dans une plage bien équilibrée d'entropie à travers les étapes. Plus précisément, notre approche intègre un curriculum pour gérer le processus d'exploration, utilisant des récompenses intrinsèques pour favoriser l'exploration au niveau des compétences et facilitant l'exploration au niveau des actions via SIL. Initialement, la récompense auxiliaire pour l'appel d'outils joue un rôle crucial dans l'accumulation des compétences d'utilisation d'outils, permettant une exposition large aux distributions inconnues des retours d'environnement avec une tendance à l'augmentation de l'entropie. Au fur et à mesure de l'entraînement, l'auto-imitation se renforce pour exploiter les modèles réussis existants à partir des expériences rejouées, accélérant l'itération des solutions sans croissance illimitée de l'entropie. Pour stabiliser davantage l'entraînement, nous recalibrons les avantages des expériences dans le tampon de relecture pour adresser les dérives potentielles de la politique. Des régularisations, telles que l'écrêtage des tokens présentant une covariance élevée entre probabilité et avantage, sont introduites pour le contrôle de l'entropie au niveau des trajectoires afin de limiter la surconfiance.
English
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic
tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks,
yet it faces a fundamental challenge of exploration-exploitation trade-off.
Existing studies stimulate exploration through the lens of policy entropy, but
such mechanical entropy maximization is prone to RL training instability due to
the multi-turn distribution shifting. In this paper, we target the progressive
exploration-exploitation balance under the guidance of the agent own
experiences without succumbing to either entropy collapsing or runaway
divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL)
recipe for training agentic LLMs. It extends the vanilla SIL framework, where a
replay buffer stores self-generated promising trajectories for off-policy
update, by gradually steering the policy evolution within a well-balanced range
of entropy across stages. Specifically, our approach incorporates a curriculum
to manage the exploration process, utilizing intrinsic rewards to foster
skill-level exploration and facilitating action-level exploration through SIL.
At first, the auxiliary tool call reward plays a critical role in the
accumulation of tool-use skills, enabling broad exposure to the unfamiliar
distributions of the environment feedback with an upward entropy trend. As
training progresses, self-imitation gets strengthened to exploit existing
successful patterns from replayed experiences for comparative action-level
exploration, accelerating solution iteration without unbounded entropy growth.
To further stabilize training, we recalibrate the advantages of experiences in
the replay buffer to address the potential policy drift. Reugularizations such
as the clipping of tokens with high covariance between probability and
advantage are introduced to the trajectory-level entropy control to curb
over-confidence.