ChatPaper.aiChatPaper

За пределами компромисса между исследованием и эксплуатацией: подход с учетом скрытых состояний для рассуждений LLM в RLVR

Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR

September 28, 2025
Авторы: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang
cs.AI

Аннотация

Преобладающий взгляд в области обучения с подкреплением для верифицируемых наград (RLVR) интерпретирует последние достижения через призму компромисса между исследованием и эксплуатацией, что во многом обусловлено метриками на уровне токенов. Мы пересматриваем эту точку зрения, предполагая, что этот воспринимаемый компромисс может не быть фундаментальным ограничением, а скорее артефактом уровня измерения. Чтобы исследовать это, мы переносим анализ в семантически богатое пространство скрытых состояний, используя Эффективный Ранг (ER) для количественной оценки исследования и предлагая его новые производные первого и второго порядка, названные Скоростью Эффективного Ранга (ERV) и Ускорением Эффективного Ранга (ERA), чтобы уловить динамику эксплуатации. Наш анализ показывает, что на уровне скрытых состояний исследование и эксплуатация могут быть разделены (Раздел 4). Это открытие выявляет возможность одновременного улучшения обеих способностей. Это понимание мотивирует наш метод, Обучение Рангу с Использованием Скорости (VERL), который впервые реализует принцип синергетического усиления исследования и эксплуатации, непосредственно формируя функцию преимущества RL. Ключевым нововведением является использование теоретически стабильного ERA в качестве прогнозирующего мета-контроллера для создания синергетической, двухканальной структуры стимулов. Вместо того чтобы навязывать компромисс, VERL перспективно усиливает награды за исследование, чтобы предотвратить излишнюю уверенность, и укрепляет выгоды от эксплуатации для консолидации рассуждений. Эксперименты на различных LLM и тестах на рассуждение показывают стабильные улучшения, включая увеличение абсолютной точности на 21,4% на сложном наборе данных Gaokao 2024.
English
A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR) interprets recent progress through the lens of an exploration-exploitation trade-off, a perspective largely shaped by token-level metrics. We re-examine this perspective, proposing that this perceived trade-off may not be a fundamental constraint but rather an artifact of the measurement level. To investigate this, we shift the analysis to the semantically rich hidden-state space, adopting Effective Rank (ER) to quantify exploration and proposing its novel first- and second-order derivatives, named Effective Rank Velocity (ERV) and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our analysis reveals that at the hidden-state level, exploration and exploitation could be decoupled (Sec. 4). This finding reveals an opportunity to enhance both capacities simultaneously. This insight motivates our method, Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the principle of synergistic exploration-exploitation enhancement by directly shaping the RL advantage function. The key innovation is leveraging the theoretically stable ERA as a predictive meta-controller to create a synergistic, dual-channel incentive structure. Instead of forcing a trade-off, VERL prospectively amplifies rewards for exploration to preempt overconfidence and reinforces exploitative gains to consolidate reasoning. Experiments across diverse LLMs and reasoning benchmarks show consistent gains, including up to 21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.
PDF392September 30, 2025