ChatPaper.aiChatPaper

Au-delà du compromis exploration-exploitation : une approche par état caché pour le raisonnement des LLM dans RLVR

Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR

September 28, 2025
papers.authors: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang
cs.AI

papers.abstract

Une perspective dominante dans l'apprentissage par renforcement pour des récompenses vérifiables (RLVR) interprète les progrès récents à travers le prisme d'un compromis exploration-exploitation, une vision largement influencée par des métriques au niveau des tokens. Nous réexaminons cette perspective, en proposant que ce compromis perçu pourrait ne pas être une contrainte fondamentale, mais plutôt un artefact du niveau de mesure. Pour explorer cette idée, nous déplaçons l'analyse vers l'espace des états cachés sémantiquement riche, en adoptant le Rang Effectif (ER) pour quantifier l'exploration et en proposant ses dérivées premières et secondes inédites, nommées Vitesse du Rang Effectif (ERV) et Accélération du Rang Effectif (ERA), pour capturer les dynamiques d'exploitation. Notre analyse révèle qu'au niveau des états cachés, l'exploration et l'exploitation pourraient être découplées (Section 4). Cette découverte met en lumière une opportunité d'améliorer simultanément ces deux capacités. Cette intuition motive notre méthode, Velocity-Exploiting Rank-Learning (VERL), la première à opérationnaliser le principe d'amélioration synergique de l'exploration-exploitation en façonnant directement la fonction d'avantage de l'apprentissage par renforcement. L'innovation clé réside dans l'utilisation de l'ERA théoriquement stable comme méta-contrôleur prédictif pour créer une structure incitative synergique à double canal. Au lieu d'imposer un compromis, VERL amplifie prospectivement les récompenses pour l'exploration afin de prévenir la surconfiance et renforce les gains d'exploitation pour consolider le raisonnement. Les expériences menées sur divers modèles de langage (LLMs) et benchmarks de raisonnement montrent des gains constants, y compris une amélioration absolue de précision allant jusqu'à 21,4 % sur le jeu de données difficile Gaokao 2024.
English
A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR) interprets recent progress through the lens of an exploration-exploitation trade-off, a perspective largely shaped by token-level metrics. We re-examine this perspective, proposing that this perceived trade-off may not be a fundamental constraint but rather an artifact of the measurement level. To investigate this, we shift the analysis to the semantically rich hidden-state space, adopting Effective Rank (ER) to quantify exploration and proposing its novel first- and second-order derivatives, named Effective Rank Velocity (ERV) and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our analysis reveals that at the hidden-state level, exploration and exploitation could be decoupled (Sec. 4). This finding reveals an opportunity to enhance both capacities simultaneously. This insight motivates our method, Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the principle of synergistic exploration-exploitation enhancement by directly shaping the RL advantage function. The key innovation is leveraging the theoretically stable ERA as a predictive meta-controller to create a synergistic, dual-channel incentive structure. Instead of forcing a trade-off, VERL prospectively amplifies rewards for exploration to preempt overconfidence and reinforces exploitative gains to consolidate reasoning. Experiments across diverse LLMs and reasoning benchmarks show consistent gains, including up to 21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.
PDF392September 30, 2025