ChatPaper.aiChatPaper

El Camino No Tomado: RLVR Aprende de Manera Comprobada Fuera de los Principios Rectores

The Path Not Taken: RLVR Provably Learns Off the Principals

November 11, 2025
Autores: Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) mejora de manera confiable el rendimiento de razonamiento de los modelos de lenguaje grandes, aunque parece modificar solo una pequeña fracción de parámetros. Revisamos esta paradoja y demostramos que la dispersión es un artefacto superficial de un sesgo de optimización condicionado por el modelo: para un modelo preentrenado fijo, las actualizaciones se localizan consistentemente en regiones de parámetros preferidas, siendo altamente consistentes entre ejecuciones y en gran medida invariantes a conjuntos de datos y recetas de RL. Explicamos mecánicamente estas dinámicas con una Teoría de Tres Compuertas: la Compuerta I (Ancla KL) impone una actualización restringida por KL; la Compuerta II (Geometría del Modelo) dirige el paso fuera de las direcciones principales hacia subespacios de baja curvatura que preservan el espectro; y la Compuerta III (Precisión) oculta micro-actualizaciones en regiones no preferidas, haciendo que el sesgo fuera del espacio principal aparezca como dispersión. Luego validamos esta teoría y, por primera vez, proporcionamos una caracterización a nivel de parámetro de la dinámica de aprendizaje de RLVR: RLVR aprende fuera de las direcciones principales en el espacio de pesos, logrando ganancias mediante una deriva espectral mínima, una reducción de la rotación en el subespacio principal y una alineación de actualizaciones fuera de este. En contraste, el Fine-Tuning Supervisado (SFT) se dirige a los pesos principales, distorsiona el espectro e incluso se queda por detrás de RLVR. En conjunto, estos resultados proporcionan la primera explicación en el espacio de parámetros de la dinámica de entrenamiento de RLVR, revelando regularidades claras en cómo evolucionan los parámetros. Crucialmente, demostramos que la RL opera en un régimen de optimización distinto al del SFT, por lo que adaptar directamente métodos de fine-tuning eficiente en parámetros (PEFT) de la era del SFT puede ser erróneo, como lo evidencian nuestros estudios de caso sobre fine-tuning disperso avanzado y variantes de LoRA. Esperamos que este trabajo trace un camino hacia una comprensión de caja blanca de RLVR y el diseño de algoritmos de aprendizaje nativos para RLVR y conscientes de la geometría, en lugar de reutilizar heurísticas de la era del SFT.
English
Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR. Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.
PDF312December 2, 2025