Más Allá de las Ganancias en Razonamiento: Mitigación del Olvido de Capacidades Generales en Modelos de Razonamiento a Gran Escala
Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models
October 24, 2025
Autores: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI
Resumen
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha logrado avances impresionantes en razonamiento matemático y multimodal, convirtiéndose en un paradigma estándar de post-entrenamiento para modelos contemporáneos de lenguaje y visión-lenguaje. Sin embargo, la metodología RLVR introduce un riesgo significativo de regresión de capacidades, donde los modelos olvidan habilidades fundamentales tras un entrenamiento prolongado sin emplear estrategias de regularización. Confirmamos empíricamente esta preocupación, observando que los modelos de razonamiento de código abierto sufren una degradación del rendimiento en capacidades centrales como la percepción y la veracidad. Si bien imponer términos de regularización como la divergencia KL puede ayudar a prevenir la desviación del modelo base, estos términos se calculan en la tarea actual, por lo que no garantizan la conservación de conocimientos más amplios. Mientras tanto, la comúnmente utilizada recuperación de experiencia a través de dominios heterogéneos hace que no sea trivial decidir cuánto enfoque de entrenamiento debe recibir cada objetivo. Para abordar esto, proponemos RECAP, una estrategia de recuperación con reponderación dinámica de objetivos para la preservación de conocimiento general. Nuestro mecanismo de reponderación se adapta en línea utilizando señales de convergencia e inestabilidad de corto plazo, desplazando el enfoque del post-entrenamiento lejos de los objetivos saturados y hacia aquellos con bajo rendimiento o volátiles. Nuestro método es integral y fácilmente aplicable a las canalizaciones RLVR existentes sin necesidad de entrenar modelos adicionales o ajustes complejos. Experimentos exhaustivos en benchmarks basados en Qwen2.5-VL-3B y Qwen2.5-VL-7B demuestran la efectividad de nuestro método, que no solo preserva las capacidades generales sino que también mejora el razonamiento al permitir compensaciones más flexibles entre las recompensas intra-tarea.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered
impressive gains in mathematical and multimodal reasoning and has become a
standard post-training paradigm for contemporary language and vision-language
models. However, the RLVR recipe introduces a significant risk of capability
regression, where models forget foundational skills after prolonged training
without employing regularization strategies. We empirically confirm this
concern, observing that open-source reasoning models suffer performance
degradation on core capabilities such as perception and faithfulness. While
imposing regularization terms like KL divergence can help prevent deviation
from the base model, these terms are calculated on the current task, thus they
do not guarantee broader knowledge. Meanwhile, commonly used experience replay
across heterogeneous domains makes it nontrivial to decide how much training
focus each objective should receive. To address this, we propose RECAP-a replay
strategy with dynamic objective reweighting for general knowledge preservation.
Our reweighting mechanism adapts in an online manner using short-horizon
signals of convergence and instability, shifting the post-training focus away
from saturated objectives and toward underperforming or volatile ones. Our
method is end-to-end and readily applicable to existing RLVR pipelines without
training additional models or heavy tuning. Extensive experiments on benchmarks
based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our
method, which not only preserves general capabilities but also improves
reasoning by enabling more flexible trade-offs among in-task rewards.