Jenseits von Fortschritten im logischen Denken: Minderung des Vergessens allgemeiner Fähigkeiten in großen logischen Modellen
Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models
October 24, 2025
papers.authors: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat beeindruckende Fortschritte im mathematischen und multimodalen Reasoning erzielt und sich zu einem Standard-Post-Training-Paradigma für moderne Sprach- und Sprach-Vision-Modelle entwickelt. Allerdings birgt der RLVR-Ansatz ein erhebliches Risiko für Fähigkeitsregression, bei der Modelle grundlegende Fertigkeiten nach längerem Training ohne Regularisierungsstrategien verlernen. Wir bestätigen diese Sorge empirisch und beobachten, dass Open-Source-Reasoning-Modelle Leistungseinbußen bei Kernfähigkeiten wie Wahrnehmung und Zuverlässigkeit erleiden. Während Regularisierungsterme wie die KL-Divergenz Abweichungen vom Basismodell verhindern können, werden diese auf der aktuellen Aufgabe berechnet und garantieren somit kein breiteres Wissen. Gleichzeitig macht die häufig verwendete Experience Replay über heterogene Domänen hinweg es schwierig zu entscheiden, wie viel Trainingsfokus jedes Ziel erhalten sollte. Um dies zu adressieren, schlagen wir RECAP vor – eine Replay-Strategie mit dynamischer Neugewichtung der Ziele zur Erhaltung allgemeinen Wissens. Unser Neugewichtungsmechanismus passt sich online anhand von Kurzzeitsignalen für Konvergenz und Instabilität an und verlagert den Trainingsfokus von gesättigten Zielen auf unterperformende oder volatile Ziele. Unsere Methode ist end-to-end und problemlos auf bestehende RLVR-Pipelines anwendbar, ohne zusätzliche Modelle trainieren oder aufwändig anpassen zu müssen. Umfangreiche Experimente auf Benchmarks basierend auf Qwen2.5-VL-3B und Qwen2.5-VL-7B demonstrieren die Wirksamkeit unserer Methode, die nicht nur allgemeine Fähigkeiten erhält, sondern auch das Reasoning verbessert, indem sie flexiblere Kompromisse zwischen aufgabeninternen Belohnungen ermöglicht.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered
impressive gains in mathematical and multimodal reasoning and has become a
standard post-training paradigm for contemporary language and vision-language
models. However, the RLVR recipe introduces a significant risk of capability
regression, where models forget foundational skills after prolonged training
without employing regularization strategies. We empirically confirm this
concern, observing that open-source reasoning models suffer performance
degradation on core capabilities such as perception and faithfulness. While
imposing regularization terms like KL divergence can help prevent deviation
from the base model, these terms are calculated on the current task, thus they
do not guarantee broader knowledge. Meanwhile, commonly used experience replay
across heterogeneous domains makes it nontrivial to decide how much training
focus each objective should receive. To address this, we propose RECAP-a replay
strategy with dynamic objective reweighting for general knowledge preservation.
Our reweighting mechanism adapts in an online manner using short-horizon
signals of convergence and instability, shifting the post-training focus away
from saturated objectives and toward underperforming or volatile ones. Our
method is end-to-end and readily applicable to existing RLVR pipelines without
training additional models or heavy tuning. Extensive experiments on benchmarks
based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our
method, which not only preserves general capabilities but also improves
reasoning by enabling more flexible trade-offs among in-task rewards.