ChatPaper.aiChatPaper

Voorbij de Exploratie-Exploitatie Afweging: Een Verborgen Toestand Benadering voor LLM Redeneren in RLVR

Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR

September 28, 2025
Auteurs: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang
cs.AI

Samenvatting

Een overheersende visie in Reinforcement Learning for Verifiable Rewards (RLVR) interpreteert recente vooruitgang door de lens van een afweging tussen exploratie en exploitatie, een perspectief dat grotendeels wordt gevormd door token-level metrieken. Wij herzien dit perspectief en stellen voor dat deze waargenomen afweging mogelijk geen fundamentele beperking is, maar eerder een artefact van het meetniveau. Om dit te onderzoeken, verschuiven we de analyse naar de semantisch rijke verborgen-toestandsruimte, waarbij we Effective Rank (ER) gebruiken om exploratie te kwantificeren en de nieuwe eerste- en tweede-orde afgeleiden, genaamd Effective Rank Velocity (ERV) en Effective Rank Acceleration (ERA), voorstellen om exploitatie-dynamieken vast te leggen. Onze analyse onthult dat op het niveau van de verborgen toestand, exploratie en exploitatie ontkoppeld kunnen worden (Sectie 4). Deze bevinding onthult een mogelijkheid om beide capaciteiten gelijktijdig te verbeteren. Dit inzicht motiveert onze methode, Velocity-Exploiting Rank-Learning (VERL), de eerste die het principe van synergetische exploratie-exploitatie-verbetering operationaliseert door direct de RL-voordelenfunctie vorm te geven. De belangrijkste innovatie is het benutten van de theoretisch stabiele ERA als een voorspellende meta-controller om een synergetische, dual-channel prikkelstructuur te creëren. In plaats van een afweging af te dwingen, versterkt VERL prospectief beloningen voor exploratie om overmoed te voorkomen en consolideert exploitatieve winsten om redenering te versterken. Experimenten over diverse LLM's en redeneerbenchmarks tonen consistente verbeteringen, waaronder een absolute nauwkeurigheidsverbetering van tot 21,4% op de uitdagende Gaokao 2024 dataset.
English
A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR) interprets recent progress through the lens of an exploration-exploitation trade-off, a perspective largely shaped by token-level metrics. We re-examine this perspective, proposing that this perceived trade-off may not be a fundamental constraint but rather an artifact of the measurement level. To investigate this, we shift the analysis to the semantically rich hidden-state space, adopting Effective Rank (ER) to quantify exploration and proposing its novel first- and second-order derivatives, named Effective Rank Velocity (ERV) and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our analysis reveals that at the hidden-state level, exploration and exploitation could be decoupled (Sec. 4). This finding reveals an opportunity to enhance both capacities simultaneously. This insight motivates our method, Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the principle of synergistic exploration-exploitation enhancement by directly shaping the RL advantage function. The key innovation is leveraging the theoretically stable ERA as a predictive meta-controller to create a synergistic, dual-channel incentive structure. Instead of forcing a trade-off, VERL prospectively amplifies rewards for exploration to preempt overconfidence and reinforces exploitative gains to consolidate reasoning. Experiments across diverse LLMs and reasoning benchmarks show consistent gains, including up to 21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.
PDF472September 30, 2025