Le chemin non emprunté : RLVR apprend de manière prouvée en dehors des principes
The Path Not Taken: RLVR Provably Learns Off the Principals
November 11, 2025
papers.authors: Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai
cs.AI
papers.abstract
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) améliore de manière fiable les performances de raisonnement des grands modèles de langage, tout en ne semblant modifier qu'une petite fraction des paramètres. Nous revisitons ce paradoxe et montrons que la parcimonie est un artefact superficiel d'un biais d'optimisation conditionné par le modèle : pour un modèle pré-entraîné fixe, les mises à jour se localisent systématiquement dans des régions de paramètres privilégiées, très cohérentes d'une exécution à l'autre et largement invariantes aux jeux de données et aux méthodes de RL. Nous expliquons mécaniquement ces dynamiques par une Théorie des Trois Portes : la Porte I (Ancrage de KL) impose une mise à jour contrainte par la divergence KL ; la Porte II (Géométrie du Modèle) oriente l'étape hors des directions principales vers des sous-espaces à faible courbure qui préservent le spectre ; et la Porte III (Précision) masque les micro-mises à jour dans les régions non privilégiées, faisant apparaître le biais hors des directions principales comme de la parcimonie. Nous validons ensuite cette théorie et fournissons, pour la première fois, une caractérisation au niveau des paramètres de la dynamique d'apprentissage du RLVR : le RLVR apprend en dehors des directions principales dans l'espace des poids, obtenant des gains via une dérive spectrale minimale, une rotation réduite du sous-espace principal et un alignement des mises à jour hors de ce sous-espace. En revanche, le Fine-Tuning Supervisé (SFT) cible les poids principaux, déforme le spectre et est même moins performant que le RLVR.
Ensemble, ces résultats fournissent la première explication dans l'espace des paramètres de la dynamique d'entraînement du RLVR, révélant des régularités claires dans l'évolution des paramètres. Surtout, nous montrons que la RL opère dans un régime d'optimisation distinct du SFT, ce qui rend l'adaptation directe des méthodes de Fine-Tuning Efficient en Paramètres (PEFT) de l'ère du SFT potentiellement erronée, comme en témoignent nos études de cas sur des variantes avancées de fine-tuning parcimonieux et de LoRA. Nous espérons que ces travaux tracent une voie vers une compréhension en boîte blanche du RLVR et vers la conception d'algorithmes d'apprentissage natifs pour le RLVR, conscients de la géométrie, plutôt que de recycler des heuristiques de l'ère du SFT.
English
Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR.
Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.