ChatPaper.aiChatPaper

Control Flexible de la Entropía en RLVR desde una Perspectiva de Preservación de Gradientes

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

February 10, 2026
Autores: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un método crítico para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, el entrenamiento continuo a menudo conduce al colapso de la entropía de la política, caracterizado por una rápida disminución de la entropía que resulta en una sobreconfianza prematura, una reducción de la diversidad de las salidas y normas de gradiente que se desvanecen, lo que inhibe el aprendizaje. El Recorte que Preserva Gradientes es un factor principal que influye en estas dinámicas, pero las estrategias de mitigación existentes son en gran medida estáticas y carecen de un marco que conecte los mecanismos de recorte con un control preciso de la entropía. Este artículo propone reformular el control de la entropía en el Aprendizaje por Refuerzo desde la perspectiva del Recorte que Preserva Gradientes. Primero verificamos teórica y empíricamente las contribuciones de regiones específicas de la tasa de importancia muestral al crecimiento y la reducción de la entropía. Aprovechando estos hallazgos, introducimos un novedoso mecanismo de regulación que utiliza un umbral de recorte dinámico para gestionar la entropía con precisión. Además, diseñamos y evaluamos estrategias dinámicas de control de la entropía, incluyendo aumento-luego-disminución, disminución-aumento-disminución y decaimiento oscilatorio. Los resultados experimentales demuestran que estas estrategias mitigan efectivamente el colapso de la entropía y logran un rendimiento superior en múltiples benchmarks.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.
PDF21February 11, 2026