Além do Dilema Exploração-Explotação: Uma Abordagem de Estado Oculto para Raciocínio de LLM em RLVR
Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR
September 28, 2025
Autores: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang
cs.AI
Resumo
Uma visão predominante no Aprendizado por Reforço para Recompensas Verificáveis (RLVR) interpreta os avanços recentes através da lente de um dilema entre exploração e explotação, uma perspectiva amplamente moldada por métricas em nível de token. Reexaminamos essa perspectiva, propondo que esse dilema percebido pode não ser uma restrição fundamental, mas sim um artefato do nível de medição. Para investigar isso, deslocamos a análise para o espaço de estados ocultos semanticamente rico, adotando o Rank Efetivo (ER) para quantificar a exploração e propondo suas novas derivadas de primeira e segunda ordem, denominadas Velocidade do Rank Efetivo (ERV) e Aceleração do Rank Efetivo (ERA), para capturar a dinâmica da explotação. Nossa análise revela que, no nível dos estados ocultos, a exploração e a explotação podem ser desacopladas (Seção 4). Essa descoberta revela uma oportunidade de aprimorar ambas as capacidades simultaneamente. Esse insight motiva nosso método, Aprendizado de Rank com Explotação de Velocidade (VERL), o primeiro a operacionalizar o princípio de aprimoramento sinérgico entre exploração e explotação, moldando diretamente a função de vantagem do RL. A inovação chave é aproveitar a ERA teoricamente estável como um meta-controlador preditivo para criar uma estrutura de incentivo sinérgica de duplo canal. Em vez de forçar um dilema, o VERL amplia prospectivamente as recompensas para exploração a fim de prevenir excesso de confiança e reforça os ganhos exploratórios para consolidar o raciocínio. Experimentos em diversos LLMs e benchmarks de raciocínio mostram ganhos consistentes, incluindo uma melhoria de até 21,4% na precisão absoluta no desafiador conjunto de dados Gaokao 2024.
English
A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR)
interprets recent progress through the lens of an exploration-exploitation
trade-off, a perspective largely shaped by token-level metrics. We re-examine
this perspective, proposing that this perceived trade-off may not be a
fundamental constraint but rather an artifact of the measurement level. To
investigate this, we shift the analysis to the semantically rich hidden-state
space, adopting Effective Rank (ER) to quantify exploration and proposing its
novel first- and second-order derivatives, named Effective Rank Velocity (ERV)
and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our
analysis reveals that at the hidden-state level, exploration and exploitation
could be decoupled (Sec. 4). This finding reveals an opportunity to enhance
both capacities simultaneously. This insight motivates our method,
Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the
principle of synergistic exploration-exploitation enhancement by directly
shaping the RL advantage function. The key innovation is leveraging the
theoretically stable ERA as a predictive meta-controller to create a
synergistic, dual-channel incentive structure. Instead of forcing a trade-off,
VERL prospectively amplifies rewards for exploration to preempt overconfidence
and reinforces exploitative gains to consolidate reasoning. Experiments across
diverse LLMs and reasoning benchmarks show consistent gains, including up to
21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.