Oltre il Dilemma Esplorazione-Sfruttamento: Un Approccio a Stati Nascosti per il Ragionamento degli LLM in RLVR
Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR
September 28, 2025
Autori: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang
cs.AI
Abstract
Una visione prevalente nell'Apprendimento per Rinforzo per Ricompense Verificabili (RLVR) interpreta i recenti progressi attraverso la lente di un compromesso esplorazione-sfruttamento, una prospettiva in gran parte modellata da metriche a livello di token. Rivalutiamo questa prospettiva, proponendo che questo presunto compromesso potrebbe non essere un vincolo fondamentale, ma piuttosto un artefatto del livello di misurazione. Per indagare ciò, spostiamo l'analisi verso lo spazio degli stati nascosti semanticamente ricchi, adottando il Rango Efficace (ER) per quantificare l'esplorazione e proponendo le sue nuove derivate del primo e del secondo ordine, denominate Velocità del Rango Efficace (ERV) e Accelerazione del Rango Efficace (ERA), per catturare le dinamiche di sfruttamento. La nostra analisi rivela che a livello di stati nascosti, esplorazione e sfruttamento potrebbero essere disaccoppiati (Sez. 4). Questa scoperta rivela un'opportunità per migliorare entrambe le capacità simultaneamente. Questa intuizione motiva il nostro metodo, Apprendimento del Rango con Sfruttamento della Velocità (VERL), il primo a operazionalizzare il principio di miglioramento sinergico dell'esplorazione-sfruttamento modellando direttamente la funzione di vantaggio dell'RL. L'innovazione chiave è sfruttare l'ERA teoricamente stabile come meta-controllore predittivo per creare una struttura di incentivi sinergica a doppio canale. Invece di forzare un compromesso, VERL amplifica prospetticamente le ricompense per l'esplorazione per prevenire l'eccessiva sicurezza e rafforza i guadagni di sfruttamento per consolidare il ragionamento. Esperimenti su vari LLM e benchmark di ragionamento mostrano miglioramenti consistenti, inclusi fino al 21,4% di miglioramento assoluto in accuratezza sul complesso dataset Gaokao 2024.
English
A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR)
interprets recent progress through the lens of an exploration-exploitation
trade-off, a perspective largely shaped by token-level metrics. We re-examine
this perspective, proposing that this perceived trade-off may not be a
fundamental constraint but rather an artifact of the measurement level. To
investigate this, we shift the analysis to the semantically rich hidden-state
space, adopting Effective Rank (ER) to quantify exploration and proposing its
novel first- and second-order derivatives, named Effective Rank Velocity (ERV)
and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our
analysis reveals that at the hidden-state level, exploration and exploitation
could be decoupled (Sec. 4). This finding reveals an opportunity to enhance
both capacities simultaneously. This insight motivates our method,
Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the
principle of synergistic exploration-exploitation enhancement by directly
shaping the RL advantage function. The key innovation is leveraging the
theoretically stable ERA as a predictive meta-controller to create a
synergistic, dual-channel incentive structure. Instead of forcing a trade-off,
VERL prospectively amplifies rewards for exploration to preempt overconfidence
and reinforces exploitative gains to consolidate reasoning. Experiments across
diverse LLMs and reasoning benchmarks show consistent gains, including up to
21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.