ChatPaper.aiChatPaper

推論能力の向上を超えて:大規模推論モデルにおける汎用能力の忘却緩和

Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models

October 24, 2025
著者: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は、数学的・マルチモーダル推論において顕著な成果をもたらし、現代の言語モデルおよび視覚言語モデルにおける標準的な事後学習パラダイムとなっている。しかし、RLVRの手法は正則化戦略を採用せずに長期間学習を続けると、モデルが基礎的な能力を忘れるという「能力退行」の重大なリスクを伴う。我々は実証的にこの懸念を確認し、オープンソースの推論モデルにおいて知覚や忠実性といった中核的能力の性能低下が生じることを観察した。KLダイバージェンスのような正則化項を課すことは基底モデルからの乖離を防ぐのに有効だが、これらの項は現在のタスクに基づいて計算されるため、より広範な知識の保持を保証しない。一方、異種ドメインにわたる経験再生は一般に用いられるが、各目的関数にどれだけ学習の焦点を当てるべきかの決定が容易ではない。この問題に対処するため、我々は一般的な知識保持のための動的目的関数再重み付けを備えた再生戦略、RECAPを提案する。我々の再重み付けメカニズムは、収束と不安定性の短期的シグナルを用いてオンラインで適応し、飽和した目的関数から、低性能または不安定な目的関数へと事後学習の焦点を移行させる。本手法はエンドツーエンドであり、追加モデルの学習や煩雑な調整を必要とせず、既存のRLVRパイプラインに容易に適用可能である。Qwen2.5-VL-3BおよびQwen2.5-VL-7Bに基づくベンチマークでの大規模な実験により、本手法の有効性が実証された。提案手法は一般的な能力を保持するだけでなく、タスク内報酬間のより柔軟なトレードオフを可能にすることで推論性能も向上させる。
English
Reinforcement learning with verifiable rewards (RLVR) has delivered impressive gains in mathematical and multimodal reasoning and has become a standard post-training paradigm for contemporary language and vision-language models. However, the RLVR recipe introduces a significant risk of capability regression, where models forget foundational skills after prolonged training without employing regularization strategies. We empirically confirm this concern, observing that open-source reasoning models suffer performance degradation on core capabilities such as perception and faithfulness. While imposing regularization terms like KL divergence can help prevent deviation from the base model, these terms are calculated on the current task, thus they do not guarantee broader knowledge. Meanwhile, commonly used experience replay across heterogeneous domains makes it nontrivial to decide how much training focus each objective should receive. To address this, we propose RECAP-a replay strategy with dynamic objective reweighting for general knowledge preservation. Our reweighting mechanism adapts in an online manner using short-horizon signals of convergence and instability, shifting the post-training focus away from saturated objectives and toward underperforming or volatile ones. Our method is end-to-end and readily applicable to existing RLVR pipelines without training additional models or heavy tuning. Extensive experiments on benchmarks based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our method, which not only preserves general capabilities but also improves reasoning by enabling more flexible trade-offs among in-task rewards.
PDF141December 1, 2025