Contrôle flexible de l'entropie dans RLVR sous une perspective préservant le gradient
Flexible Entropy Control in RLVR with Gradient-Preserving Perspective
February 10, 2026
papers.authors: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode essentielle pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, l'entraînement continu entraîne souvent un effondrement de l'entropie de la politique, caractérisé par une décroissance rapide de l'entropie qui provoque une surconfiance prématurée, une réduction de la diversité des sorties et une disparition des normes de gradient qui inhibent l'apprentissage. L'écrêtage préservant le gradient est un facteur clé influençant ces dynamiques, mais les stratégies d'atténuation existantes sont largement statiques et manquent d'un cadre reliant les mécanismes d'écrêtage au contrôle précis de l'entropie. Cet article propose de repenser le contrôle de l'entropie en RL sous l'angle de l'écrêtage préservant le gradient. Nous vérifions d'abord théoriquement et empiriquement les contributions de régions spécifiques du ratio d'échantillonnage d'importance à la croissance et à la réduction de l'entropie. En nous appuyant sur ces résultats, nous introduisons un nouveau mécanisme de régulation utilisant un seuil d'écrêtage dynamique pour gérer précisément l'entropie. De plus, nous concevons et évaluons des stratégies de contrôle dynamique de l'entropie, incluant une augmentation puis diminution, une diminution-augmentation-diminution et une décroissance oscillatoire. Les résultats expérimentaux démontrent que ces stratégies atténuent efficacement l'effondrement de l'entropie et obtiennent des performances supérieures sur plusieurs benchmarks.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.