Oltre i progressi nel ragionamento: mitigare la dimenticanza delle capacità generali nei modelli di ragionamento di grandi dimensioni
Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models
October 24, 2025
Autori: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI
Abstract
L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha fornito progressi impressionanti nel ragionamento matematico e multimodale, diventando un paradigma standard di post-addestramento per i modelli linguistici e visivo-linguistici contemporanei. Tuttavia, la metodologia RLVR introduce un rischio significativo di regressione delle capacità, in cui i modelli dimenticano abilità fondamentali dopo un addestramento prolungato senza l'impiego di strategie di regolarizzazione. Confermiamo empiricamente questa preoccupazione, osservando che i modelli di ragionamento open-source subiscono un degrado delle prestazioni su capacità fondamentali come la percezione e l'aderenza alla realtà. Sebbene l'imposizione di termini di regolarizzazione come la divergenza KL possa aiutare a prevenire la deviazione dal modello base, questi termini sono calcolati sul compito corrente, quindi non garantiscono la conservazione della conoscenza più ampia. Nel frattempo, il replay dell'esperienza comunemente utilizzato su domini eterogenei rende non banale decidere quanto focus di addestramento dovrebbe ricevere ciascun obiettivo. Per affrontare ciò, proponiamo RECAP, una strategia di replay con ripesatura dinamica degli obiettivi per la preservazione della conoscenza generale. Il nostro meccanismo di ripesatura si adatta in modo online utilizzando segnali a breve orizzonte di convergenza e instabilità, spostando l'attenzione del post-addestramento lontano dagli obiettivi saturi e verso quelli sottoperformanti o volatili. Il nostro metodo è end-to-end e immediatamente applicabile alle pipeline RLVR esistenti senza addestrare modelli aggiuntivi o pesanti ottimizzazioni. Esperimenti estesi su benchmark basati su Qwen2.5-VL-3B e Qwen2.5-VL-7B dimostrano l'efficacia del nostro metodo, che non solo preserva le capacità generali ma migliora anche il ragionamento consentendo compromessi più flessibili tra le ricompense interne al compito.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered
impressive gains in mathematical and multimodal reasoning and has become a
standard post-training paradigm for contemporary language and vision-language
models. However, the RLVR recipe introduces a significant risk of capability
regression, where models forget foundational skills after prolonged training
without employing regularization strategies. We empirically confirm this
concern, observing that open-source reasoning models suffer performance
degradation on core capabilities such as perception and faithfulness. While
imposing regularization terms like KL divergence can help prevent deviation
from the base model, these terms are calculated on the current task, thus they
do not guarantee broader knowledge. Meanwhile, commonly used experience replay
across heterogeneous domains makes it nontrivial to decide how much training
focus each objective should receive. To address this, we propose RECAP-a replay
strategy with dynamic objective reweighting for general knowledge preservation.
Our reweighting mechanism adapts in an online manner using short-horizon
signals of convergence and instability, shifting the post-training focus away
from saturated objectives and toward underperforming or volatile ones. Our
method is end-to-end and readily applicable to existing RLVR pipelines without
training additional models or heavy tuning. Extensive experiments on benchmarks
based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our
method, which not only preserves general capabilities but also improves
reasoning by enabling more flexible trade-offs among in-task rewards.