ChatPaper.aiChatPaper

추론 능력 향상 이상: 대규모 추론 모델의 일반 능력 망각 현상 완화

Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models

October 24, 2025
저자: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI

초록

검증 가능 보상 강화학습(RLVR)은 수학적 및 다중모달 추론 분야에서 인상적인 성과를 달성하며, 현대 언어 및 시각-언어 모델의 표준 사후 학습 패러다임으로 자리 잡았습니다. 그러나 RLVR 방식은 정규화 전략을 적용하지 않은 장기간 학습 시 모델이 기초 능력을 망각하는 능력 퇴행 위험을 내포합니다. 우리는 실증적으로 이 문제를 확인하며, 오픈소스 추론 모델들이 인식 능력과 사실성 같은 핵심 역량에서 성능 저하를 겪는 것을 관찰했습니다. KL 발산 같은 정규화 항을 적용하면 기본 모델과의 이탈을 방지하는 데 도움이 되지만, 이러한 항은 현재 작업에 기반해 계산되므로 광범위한 지식 보존을 보장하지는 못합니다. 한편, 이질적 영역에서 흔히 사용되는 경험 재현 기법은 각 목표가 얼마나 많은 학습 비중을 가져야 할지 결정하기 어렵게 만듭니다. 이를 해결하기 위해 우리는 일반 지식 보존을 위한 동적 목표 재가중 재현 전략인 RECAP을 제안합니다. 우리의 재가중 메커니즘은 수렴과 불안정성에 대한 단기 신호를 사용해 온라인 방식으로 조정되며, 포화된 목표에서 성능이 부진하거나 변동성이 큰 목표로 사후 학습 초점을 전환합니다. 우리의 방법은 end-to-end 방식으로 추가 모델 학습이나 복잡한 튜닝 없이 기존 RLVR 파이프라인에 바로 적용 가능합니다. Qwen2.5-VL-3B와 Qwen2.5-VL-7B 기반 벤치마크에서의 폭넓은 실험을 통해 우리 방법의 효과를 입증했으며, 이는 일반 역량을 보존할 뿐만 아니라 작업 내 보상 간 유연한 균형 조정을 통해 추론 성능까지 향상시킵니다.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered impressive gains in mathematical and multimodal reasoning and has become a standard post-training paradigm for contemporary language and vision-language models. However, the RLVR recipe introduces a significant risk of capability regression, where models forget foundational skills after prolonged training without employing regularization strategies. We empirically confirm this concern, observing that open-source reasoning models suffer performance degradation on core capabilities such as perception and faithfulness. While imposing regularization terms like KL divergence can help prevent deviation from the base model, these terms are calculated on the current task, thus they do not guarantee broader knowledge. Meanwhile, commonly used experience replay across heterogeneous domains makes it nontrivial to decide how much training focus each objective should receive. To address this, we propose RECAP-a replay strategy with dynamic objective reweighting for general knowledge preservation. Our reweighting mechanism adapts in an online manner using short-horizon signals of convergence and instability, shifting the post-training focus away from saturated objectives and toward underperforming or volatile ones. Our method is end-to-end and readily applicable to existing RLVR pipelines without training additional models or heavy tuning. Extensive experiments on benchmarks based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our method, which not only preserves general capabilities but also improves reasoning by enabling more flexible trade-offs among in-task rewards.
PDF141December 1, 2025