Гибкое управление энтропией в RLVR с градиент-сохраняющей перспективой
Flexible Entropy Control in RLVR with Gradient-Preserving Perspective
February 10, 2026
Авторы: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao
cs.AI
Аннотация
Подкрепляемое обучение с верифицируемыми вознаграждениями (RLVR) стало ключевым методом для улучшения способностей к рассуждению у больших языковых моделей (LLM). Однако непрерывное обучение часто приводит к коллапсу энтропии политики, который характеризуется быстрым спадом энтропии, что ведет к преждевременной избыточной уверенности, снижению разнообразия выходных данных и исчезновению норм градиента, что тормозит обучение. Градиент-сохраняющее отсечение (Gradient-Preserving Clipping) является основным фактором, влияющим на эту динамику, но существующие стратегии смягчения в основном статичны и не имеют framework, связывающего механизмы отсечения с точным контролем энтропии. В данной статье предлагается переосмыслить контроль энтропии в RL с точки зрения градиент-сохраняющего отсечения. Сначала мы теоретически и эмпирически проверяем вклад конкретных областей коэффициента важности сэмплирования в рост и снижение энтропии. Опираясь на эти findings, мы представляем новый механизм регулирования с использованием динамического порога отсечения для точного управления энтропией. Кроме того, мы разрабатываем и оцениваем динамические стратегии контроля энтропии, включая «увеличение-затем-уменьшение», «уменьшение-увеличение-уменьшение» и oscillatory decay. Результаты экспериментов демонстрируют, что эти стратегии эффективно смягчают коллапс энтропии и достигают превосходной производительности на множестве benchmarks.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.