Flexibele Entropiecontrole in RLVR vanuit een Gradiënt-behoudend Perspectief

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een cruciale methode om de redeneercapaciteiten van Large Language Models (LLM's) te verbeteren. Continue training leidt echter vaak tot een beleidsentropie-collaps, gekenmerkt door een snelle afname van de entropie die resulteert in voortijdige overmoed, verminderde outputdiversiteit en verdwijnende gradiëntnormen die het leren belemmeren. Gradient-Preserving Clipping is een primaire factor die deze dynamiek beïnvloedt, maar bestaande mitigatiestrategieën zijn grotendeels statisch en missen een raamwerk dat clippingmechanismen verbindt met precieze entropiecontrole. Dit artikel stelt voor om entropiecontrole in RL te hervormen vanuit het perspectief van Gradient-Preserving Clipping. We verifiëren eerst theoretisch en empirisch de bijdragen van specifieke important sampling ratio-regio's aan entropiegroei en -reductie. Gebruikmakend van deze bevindingen, introduceren we een nieuwe regulatiemechanisme met een dynamische clippingdrempel om de entropie precies te beheren. Verder ontwerpen en evalueren we dynamische entropiecontrole-strategieën, waaronder 'toenemen-dan-afnemen', 'afnemen-toenemen-afnemen' en oscillerend verval. Experimentele resultaten tonen aan dat deze strategieën entropie-collaps effectief mitigeren en superieure prestaties behalen op meerdere benchmarks.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.

Flexibele Entropiecontrole in RLVR vanuit een Gradiënt-behoudend Perspectief

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

Samenvatting

Support