Controle Flexível de Entropia no RLVR sob uma Perspectiva de Preservação de Gradientes

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um método crítico para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, o treinamento contínuo frequentemente leva ao colapso da entropia da política, caracterizado por uma rápida diminuição da entropia que resulta em excesso de confiança prematuro, redução da diversidade de saída e normas de gradiente que se anulam, inibindo o aprendizado. O *Clipping* de Preservação de Gradiente é um fator primário que influencia essas dinâmicas, mas as estratégias de mitigação existentes são amplamente estáticas e carecem de uma estrutura que conecte os mecanismos de *clipping* a um controle preciso da entropia. Este artigo propõe reformular o controle de entropia no AR a partir da perspectiva do *Clipping* de Preservação de Gradiente. Primeiro, verificamos teórica e empiricamente as contribuições de regiões específicas da taxa de amostragem por importância para o crescimento e a redução da entropia. Aproveitando essas descobertas, introduzimos um novo mecanismo de regulação que utiliza um limite de *clipping* dinâmico para gerenciar a entropia com precisão. Além disso, projetamos e avaliamos estratégias dinâmicas de controle de entropia, incluindo aumento-depois-diminuição, diminuição-aumento-diminuição e decaimento oscilatório. Resultados experimentais demonstram que essas estratégias mitigam efetivamente o colapso de entropia e alcançam desempenho superior em múltiplos *benchmarks*.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.

Controle Flexível de Entropia no RLVR sob uma Perspectiva de Preservação de Gradientes

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

Resumo

Support