ChatPaper.aiChatPaper

Au-delà des gains en raisonnement : atténuer l'oubli des capacités générales dans les grands modèles de raisonnement

Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models

October 24, 2025
papers.authors: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis des progrès impressionnants en raisonnement mathématique et multimodal, devenant un paradigme standard de post-entraînement pour les modèles contemporains de langage et vision-langage. Cependant, cette approche introduit un risque significatif de régression des capacités, où les modèles oublient des compétences fondamentales après un entraînement prolongé sans stratégies de régularisation. Nous confirmons empiriquement cette préoccupation en observant que les modèles de raisonnement open-source subissent une dégradation des performances sur des capacités fondamentales comme la perception et la fidélité aux faits. Bien que l'ajout de termes de régularisation comme la divergence KL puisse aider à prévenir l'écart par rapport au modèle de base, ces termes sont calculés sur la tâche actuelle et ne garantissent donc pas la préservation des connaissances générales. Parallèlement, la réutilisation d'expériences couramment employée sur des domaines hétérogènes rend difficile la décision de l'importance relative à accorder à chaque objectif d'entraînement. Pour résoudre ce problème, nous proposons RECAP - une stratégie de révision avec repondération dynamique des objectifs pour la préservation des connaissances générales. Notre mécanisme de repondération s'adapte en ligne en utilisant des signaux à court terme de convergence et d'instabilité, déplaçant l'attention du post-entraînement des objectifs saturés vers ceux sous-performants ou volatils. Notre méthode est de bout en bout et directement applicable aux pipelines RLVR existants sans nécessiter l'entraînement de modèles supplémentaires ou un réglage intensif. Des expériences approfondies sur des benchmarks basés sur Qwen2.5-VL-3B et Qwen2.5-VL-7B démontrent l'efficacité de notre méthode, qui préserve non seulement les capacités générales mais améliore également le raisonnement en permettant des compromis plus flexibles entre les récompenses intra-tâches.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered impressive gains in mathematical and multimodal reasoning and has become a standard post-training paradigm for contemporary language and vision-language models. However, the RLVR recipe introduces a significant risk of capability regression, where models forget foundational skills after prolonged training without employing regularization strategies. We empirically confirm this concern, observing that open-source reasoning models suffer performance degradation on core capabilities such as perception and faithfulness. While imposing regularization terms like KL divergence can help prevent deviation from the base model, these terms are calculated on the current task, thus they do not guarantee broader knowledge. Meanwhile, commonly used experience replay across heterogeneous domains makes it nontrivial to decide how much training focus each objective should receive. To address this, we propose RECAP-a replay strategy with dynamic objective reweighting for general knowledge preservation. Our reweighting mechanism adapts in an online manner using short-horizon signals of convergence and instability, shifting the post-training focus away from saturated objectives and toward underperforming or volatile ones. Our method is end-to-end and readily applicable to existing RLVR pipelines without training additional models or heavy tuning. Extensive experiments on benchmarks based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our method, which not only preserves general capabilities but also improves reasoning by enabling more flexible trade-offs among in-task rewards.
PDF141December 1, 2025