Jenseits des Exploration-Exploitation-Kompromisses: Ein Ansatz mit verborgenen Zuständen für das Reasoning von LLMs in RLVR
Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR
September 28, 2025
papers.authors: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang
cs.AI
papers.abstract
Eine vorherrschende Sichtweise im Bereich Reinforcement Learning for Verifiable Rewards (RLVR) interpretiert die jüngsten Fortschritte durch die Linse eines Exploration-Exploitation-Trade-offs, eine Perspektive, die weitgehend durch Token-Level-Metriken geprägt ist. Wir überprüfen diese Perspektive erneut und schlagen vor, dass dieser wahrgenommene Trade-off möglicherweise keine grundlegende Einschränkung darstellt, sondern vielmehr ein Artefakt der Messebene ist. Um dies zu untersuchen, verlagern wir die Analyse in den semantisch reichen Hidden-State-Raum, wobei wir den Effective Rank (ER) zur Quantifizierung der Exploration verwenden und seine neuartigen ersten und zweiten Ableitungen, genannt Effective Rank Velocity (ERV) und Effective Rank Acceleration (ERA), vorschlagen, um die Exploitation-Dynamiken zu erfassen. Unsere Analyse zeigt, dass auf der Hidden-State-Ebene Exploration und Exploitation entkoppelt werden könnten (Abschnitt 4). Diese Erkenntnis offenbart eine Möglichkeit, beide Fähigkeiten gleichzeitig zu verbessern. Diese Einsicht motiviert unsere Methode, Velocity-Exploiting Rank-Learning (VERL), die als erste das Prinzip der synergetischen Exploration-Exploitation-Verbesserung operationalisiert, indem sie die RL-Vorteilsfunktion direkt gestaltet. Die zentrale Innovation besteht darin, den theoretisch stabilen ERA als prädiktiven Meta-Controller zu nutzen, um eine synergetische, dualkanalige Anreizstruktur zu schaffen. Anstatt einen Trade-off zu erzwingen, verstärkt VERL prospektiv die Belohnungen für die Exploration, um Selbstüberschätzung vorzubeugen, und festigt die exploitativen Gewinne, um die Argumentation zu konsolidieren. Experimente über diverse LLMs und Reasoning-Benchmarks zeigen konsistente Verbesserungen, einschließlich einer absoluten Genauigkeitssteigerung von bis zu 21,4 % auf dem anspruchsvollen Gaokao 2024-Datensatz.
English
A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR)
interprets recent progress through the lens of an exploration-exploitation
trade-off, a perspective largely shaped by token-level metrics. We re-examine
this perspective, proposing that this perceived trade-off may not be a
fundamental constraint but rather an artifact of the measurement level. To
investigate this, we shift the analysis to the semantically rich hidden-state
space, adopting Effective Rank (ER) to quantify exploration and proposing its
novel first- and second-order derivatives, named Effective Rank Velocity (ERV)
and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our
analysis reveals that at the hidden-state level, exploration and exploitation
could be decoupled (Sec. 4). This finding reveals an opportunity to enhance
both capacities simultaneously. This insight motivates our method,
Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the
principle of synergistic exploration-exploitation enhancement by directly
shaping the RL advantage function. The key innovation is leveraging the
theoretically stable ERA as a predictive meta-controller to create a
synergistic, dual-channel incentive structure. Instead of forcing a trade-off,
VERL prospectively amplifies rewards for exploration to preempt overconfidence
and reinforces exploitative gains to consolidate reasoning. Experiments across
diverse LLMs and reasoning benchmarks show consistent gains, including up to
21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.