ChatPaper.aiChatPaper

Voorbij Redeneerverbetering: Het Verminderen van Algemene Capaciteitsvergetelheid in Grote Redeneermodellen

Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models

October 24, 2025
Auteurs: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) heeft indrukwekkende vooruitgang geboekt in wiskundig en multimodaal redeneren en is een standaard post-trainingsparadigma geworden voor hedendaagse taal- en visie-taalmodellen. Het RLVR-recept brengt echter een aanzienlijk risico op capaciteitsregressie met zich mee, waarbij modellen fundamentele vaardigheden vergeten na langdurige training zonder regularisatiestrategieën toe te passen. We bevestigen deze zorg empirisch en observeren dat open-source redeneermodellen prestatieverlies lijden op kerncapaciteiten zoals perceptie en betrouwbaarheid. Hoewel het opleggen van regularisatietermen zoals KL-divergentie kan helpen om afwijking van het basismodel te voorkomen, worden deze termen berekend op de huidige taak en garanderen ze dus geen bredere kennis. Tegelijkertijd maakt veelgebruikte ervaringsherhaling over heterogene domeinen het niet-triviaal om te beslissen hoeveel trainingsfocus elk doel zou moeten krijgen. Om dit aan te pakken, stellen we RECAP voor - een herhalingsstrategie met dynamische herweging van doelen voor het behoud van algemene kennis. Ons herwegingsmechanisme past zich online aan met behulp van kortetermijnsignalen van convergentie en instabiliteit, waardoor de post-trainingsfocus verschuift van verzadigde doelen naar onderpresterende of volatiele doelen. Onze methode is end-to-end en direct toepasbaar op bestaande RLVR-pipelines zonder extra modellen te trainen of zware afstemming. Uitgebreide experimenten op benchmarks gebaseerd op Qwen2.5-VL-3B en Qwen2.5-VL-7B tonen de effectiviteit van onze methode aan, die niet alleen algemene capaciteiten behoudt, maar ook het redeneren verbetert door flexibelere afwegingen tussen taakspecifieke beloningen mogelijk te maken.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered impressive gains in mathematical and multimodal reasoning and has become a standard post-training paradigm for contemporary language and vision-language models. However, the RLVR recipe introduces a significant risk of capability regression, where models forget foundational skills after prolonged training without employing regularization strategies. We empirically confirm this concern, observing that open-source reasoning models suffer performance degradation on core capabilities such as perception and faithfulness. While imposing regularization terms like KL divergence can help prevent deviation from the base model, these terms are calculated on the current task, thus they do not guarantee broader knowledge. Meanwhile, commonly used experience replay across heterogeneous domains makes it nontrivial to decide how much training focus each objective should receive. To address this, we propose RECAP-a replay strategy with dynamic objective reweighting for general knowledge preservation. Our reweighting mechanism adapts in an online manner using short-horizon signals of convergence and instability, shifting the post-training focus away from saturated objectives and toward underperforming or volatile ones. Our method is end-to-end and readily applicable to existing RLVR pipelines without training additional models or heavy tuning. Extensive experiments on benchmarks based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our method, which not only preserves general capabilities but also improves reasoning by enabling more flexible trade-offs among in-task rewards.
PDF141December 1, 2025