ChatPaper.aiChatPaper

Oltre i progressi nel ragionamento: mitigare la dimenticanza delle capacità generali nei modelli di ragionamento di grandi dimensioni

Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models

October 24, 2025
Autori: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI

Abstract

L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha fornito progressi impressionanti nel ragionamento matematico e multimodale, diventando un paradigma standard di post-addestramento per i modelli linguistici e visivo-linguistici contemporanei. Tuttavia, la metodologia RLVR introduce un rischio significativo di regressione delle capacità, in cui i modelli dimenticano abilità fondamentali dopo un addestramento prolungato senza l'impiego di strategie di regolarizzazione. Confermiamo empiricamente questa preoccupazione, osservando che i modelli di ragionamento open-source subiscono un degrado delle prestazioni su capacità fondamentali come la percezione e l'aderenza alla realtà. Sebbene l'imposizione di termini di regolarizzazione come la divergenza KL possa aiutare a prevenire la deviazione dal modello base, questi termini sono calcolati sul compito corrente, quindi non garantiscono la conservazione della conoscenza più ampia. Nel frattempo, il replay dell'esperienza comunemente utilizzato su domini eterogenei rende non banale decidere quanto focus di addestramento dovrebbe ricevere ciascun obiettivo. Per affrontare ciò, proponiamo RECAP, una strategia di replay con ripesatura dinamica degli obiettivi per la preservazione della conoscenza generale. Il nostro meccanismo di ripesatura si adatta in modo online utilizzando segnali a breve orizzonte di convergenza e instabilità, spostando l'attenzione del post-addestramento lontano dagli obiettivi saturi e verso quelli sottoperformanti o volatili. Il nostro metodo è end-to-end e immediatamente applicabile alle pipeline RLVR esistenti senza addestrare modelli aggiuntivi o pesanti ottimizzazioni. Esperimenti estesi su benchmark basati su Qwen2.5-VL-3B e Qwen2.5-VL-7B dimostrano l'efficacia del nostro metodo, che non solo preserva le capacità generali ma migliora anche il ragionamento consentendo compromessi più flessibili tra le ricompense interne al compito.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered impressive gains in mathematical and multimodal reasoning and has become a standard post-training paradigm for contemporary language and vision-language models. However, the RLVR recipe introduces a significant risk of capability regression, where models forget foundational skills after prolonged training without employing regularization strategies. We empirically confirm this concern, observing that open-source reasoning models suffer performance degradation on core capabilities such as perception and faithfulness. While imposing regularization terms like KL divergence can help prevent deviation from the base model, these terms are calculated on the current task, thus they do not guarantee broader knowledge. Meanwhile, commonly used experience replay across heterogeneous domains makes it nontrivial to decide how much training focus each objective should receive. To address this, we propose RECAP-a replay strategy with dynamic objective reweighting for general knowledge preservation. Our reweighting mechanism adapts in an online manner using short-horizon signals of convergence and instability, shifting the post-training focus away from saturated objectives and toward underperforming or volatile ones. Our method is end-to-end and readily applicable to existing RLVR pipelines without training additional models or heavy tuning. Extensive experiments on benchmarks based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our method, which not only preserves general capabilities but also improves reasoning by enabling more flexible trade-offs among in-task rewards.
PDF141December 1, 2025