O Caminho Não Percorrido: RLVR Aprende Comprovadamente Fora dos Princípios

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora de forma confiável o desempenho de raciocínio de modelos de linguagem grandes, embora aparente modificar apenas uma pequena fração dos parâmetros. Revisitamos este paradoxo e mostramos que a esparsidade é um artefato superficial de um viés de otimização condicionado pelo modelo: para um modelo pré-treinado fixo, as atualizações se localizam consistentemente em regiões de parâmetros preferenciais, altamente consistentes entre execuções e em grande parte invariantes a conjuntos de dados e receitas de RL. Explicamos mecanicamente essas dinâmicas com uma Teoria dos Três Portões: o Portão I (Âncora de KL) impõe uma atualização com restrição de KL; o Portão II (Geometria do Modelo) direciona o passo para fora das direções principais, em subespaços de baixa curvatura que preservam o espectro; e o Portão III (Precisão) oculta micro-atualizações em regiões não preferenciais, fazendo com que o viés fora das direções principais apareça como esparsidade. Em seguida, validamos esta teoria e, pela primeira vez, fornecemos uma caracterização em nível de parâmetro das dinâmicas de aprendizado do RLVR: o RLVR aprende fora das direções principais no espaço de pesos, alcançando ganhos por meio de desvio espectral mínimo, rotação reduzida do subespaço principal e alinhamento de atualizações fora do principal. Em contraste, o Ajuste Fino Supervisionado (SFT) visa os pesos principais, distorce o espectro e até fica aquém do RLVR. Juntos, esses resultados fornecem o primeiro relato no espaço de parâmetros das dinâmicas de treinamento do RLVR, revelando regularidades claras em como os parâmetros evoluem. Crucialmente, mostramos que o RL opera em um regime de otimização distinto do SFT, portanto, adaptar diretamente métodos de ajuste fino eficiente em parâmetros (PEFT) da era do SFT pode ser falho, como evidenciado por nossos estudos de caso sobre variantes avançadas de ajuste fino esparso e LoRA. Esperamos que este trabalho trace um caminho para uma compreensão de caixa-branca do RLVR e para o projeto de algoritmos de aprendizado nativos do RLVR e conscientes da geometria, em vez de heurísticas reaproveitadas da era do SFT.

English

Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR. Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.

O Caminho Não Percorrido: RLVR Aprende Comprovadamente Fora dos Princípios

The Path Not Taken: RLVR Provably Learns Off the Principals

Resumo

Support