Flexible Entropiesteuerung in RLVR mit gradientenerhaltender Perspektive
Flexible Entropy Control in RLVR with Gradient-Preserving Perspective
February 10, 2026
papers.authors: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao
cs.AI
papers.abstract
Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als eine entscheidende Methode zur Verbesserung der Denkfähigkeiten von Large Language Models (LLMs) etabliert. Kontinuierliches Training führt jedoch häufig zu einem Kollaps der Policy-Entropie, der sich durch einen schnellen Entropieabfall auszeichnet. Dies resultiert in vorzeitiger Überzuversicht, reduzierter Ausgabevielfalt und verschwindenden Gradientennormen, die das Lernen hemmen. Gradient-Preserving Clipping ist ein Hauptfaktor, der diese Dynamiken beeinflusst, doch bestehende Gegenmaßnahmen sind weitgehend statisch und es fehlt ein Rahmenwerk, das Clipping-Mechanismen mit einer präzisen Entropiesteuerung verbindet. Dieses Papier schlägt vor, die Entropiesteuerung im RL aus der Perspektive des Gradient-Preserving Clipping neu zu gestalten. Wir verifizieren zunächst theoretisch und empirisch die Beiträge spezifischer Importance-Sampling-Ratio-Bereiche zum Entropiewachstum und -abbau. Gestützt auf diese Erkenntnisse führen wir einen neuartigen Regulierungsmechanismus ein, der einen dynamischen Clipping-Schwellenwert verwendet, um die Entropie präzise zu steuern. Darüber hinaus entwerfen und evaluieren wir dynamische Entropiesteuerungsstrategien, einschließlich Anstieg-gefolgt-von-Abfall, Abfall-Anstieg-Abfall und oszillatorischem Abfall. Experimentelle Ergebnisse zeigen, dass diese Strategien den Entropiekollaps wirksam abmildern und eine überlegene Leistung über mehrere Benchmarks hinweg erzielen.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.