Controllo Flessibile dell'Entropia in RLVR con una Prospettiva a Conservazione del Gradiente

Abstract

L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è emerso come metodo cruciale per potenziare le capacità di ragionamento dei Large Language Model (LLM). Tuttavia, l’addestramento continuo spesso porta a un collasso dell’entropia della policy, caratterizzato da un decadimento rapido dell’entropia che determina un'eccessiva sicurezza prematura, una ridotta diversità degli output e norme dei gradienti che svaniscono, inibendo l’apprendimento. Il Clipping Conservativo del Gradiente è un fattore primario che influenza queste dinamiche, ma le strategie di mitigazione esistenti sono largamente statiche e prive di un quadro che colleghi i meccanismi di clipping a un controllo preciso dell’entropia. Questo articolo propone di riformulare il controllo dell’entropia nell’RL dalla prospettiva del Clipping Conservativo del Gradiente. Inizialmente verifichiamo teoricamente ed empiricamente il contributo di specifiche regioni del rapporto di importance sampling alla crescita e alla riduzione dell’entropia. Sfruttando questi risultati, introduciamo un nuovo meccanismo di regolazione che utilizza una soglia di clipping dinamica per gestire con precisione l’entropia. Inoltre, progettiamo e valutiamo strategie dinamiche di controllo dell’entropia, includendo aumento-poi-diminuzione, diminuzione-aumento-diminuzione e decadimento oscillatorio. I risultati sperimentali dimostrano che queste strategie mitigano efficacemente il collasso dell’entropia e raggiungono prestazioni superiori su molteplici benchmark.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.

Controllo Flessibile dell'Entropia in RLVR con una Prospettiva a Conservazione del Gradiente

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

Abstract

Support