ChatPaper.aiChatPaper

Controle Flexível de Entropia no RLVR sob uma Perspectiva de Preservação de Gradientes

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

February 10, 2026
Autores: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao
cs.AI

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um método crítico para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, o treinamento contínuo frequentemente leva ao colapso da entropia da política, caracterizado por uma rápida diminuição da entropia que resulta em excesso de confiança prematuro, redução da diversidade de saída e normas de gradiente que se anulam, inibindo o aprendizado. O *Clipping* de Preservação de Gradiente é um fator primário que influencia essas dinâmicas, mas as estratégias de mitigação existentes são amplamente estáticas e carecem de uma estrutura que conecte os mecanismos de *clipping* a um controle preciso da entropia. Este artigo propõe reformular o controle de entropia no AR a partir da perspectiva do *Clipping* de Preservação de Gradiente. Primeiro, verificamos teórica e empiricamente as contribuições de regiões específicas da taxa de amostragem por importância para o crescimento e a redução da entropia. Aproveitando essas descobertas, introduzimos um novo mecanismo de regulação que utiliza um limite de *clipping* dinâmico para gerenciar a entropia com precisão. Além disso, projetamos e avaliamos estratégias dinâmicas de controle de entropia, incluindo aumento-depois-diminuição, diminuição-aumento-diminuição e decaimento oscilatório. Resultados experimentais demonstram que essas estratégias mitigam efetivamente o colapso de entropia e alcançam desempenho superior em múltiplos *benchmarks*.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.
PDF32March 31, 2026