Além dos Ganhos de Raciocínio: Mitigando o Esquecimento de Capacidades Gerais em Modelos de Raciocínio de Grande Porte
Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models
October 24, 2025
Autores: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) tem proporcionado ganhos impressionantes no raciocínio matemático e multimodal, tornando-se um paradigma padrão de pós-treinamento para modelos contemporâneos de linguagem e visão-linguagem. No entanto, a abordagem RLVR introduz um risco significativo de regressão de capacidades, em que os modelos esquecem habilidades fundamentais após treinamento prolongado sem a utilização de estratégias de regularização. Confirmamos empiricamente essa preocupação, observando que modelos de raciocínio de código aberto sofrem degradação de desempenho em capacidades centrais, como percepção e fidedignidade. Embora a imposição de termos de regularização, como a divergência KL, possa ajudar a prevenir o desvio do modelo base, esses termos são calculados na tarefa atual, portanto não garantem a preservação do conhecimento mais amplo. Entretanto, a prática comum de replay de experiência em domínios heterogêneos torna não trivial decidir quanto foco de treinamento cada objetivo deve receber. Para resolver isso, propomos o RECAP - uma estratégia de replay com rebalanceamento dinâmico de objetivos para preservação do conhecimento geral. Nosso mecanismo de rebalanceamento adapta-se de forma online usando sinais de convergência e instabilidade de curto prazo, deslocando o foco do pós-treinamento de objetivos saturados para aqueles com desempenho insuficiente ou voláteis. Nosso método é end-to-end e prontamente aplicável a pipelines RLVR existentes sem a necessidade de treinar modelos adicionais ou ajustes complexos. Experimentos extensivos em benchmarks baseados no Qwen2.5-VL-3B e Qwen2.5-VL-7B demonstram a eficácia do nosso método, que não apenas preserva capacidades gerais, mas também melhora o raciocínio ao permitir trade-offs mais flexíveis entre recompensas intrínsecas à tarefa.
English
Reinforcement learning with verifiable rewards (RLVR) has delivered
impressive gains in mathematical and multimodal reasoning and has become a
standard post-training paradigm for contemporary language and vision-language
models. However, the RLVR recipe introduces a significant risk of capability
regression, where models forget foundational skills after prolonged training
without employing regularization strategies. We empirically confirm this
concern, observing that open-source reasoning models suffer performance
degradation on core capabilities such as perception and faithfulness. While
imposing regularization terms like KL divergence can help prevent deviation
from the base model, these terms are calculated on the current task, thus they
do not guarantee broader knowledge. Meanwhile, commonly used experience replay
across heterogeneous domains makes it nontrivial to decide how much training
focus each objective should receive. To address this, we propose RECAP-a replay
strategy with dynamic objective reweighting for general knowledge preservation.
Our reweighting mechanism adapts in an online manner using short-horizon
signals of convergence and instability, shifting the post-training focus away
from saturated objectives and toward underperforming or volatile ones. Our
method is end-to-end and readily applicable to existing RLVR pipelines without
training additional models or heavy tuning. Extensive experiments on benchmarks
based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our
method, which not only preserves general capabilities but also improves
reasoning by enabling more flexible trade-offs among in-task rewards.