Além dos Ganhos de Raciocínio: Mitigando o Esquecimento de Capacidades Gerais em Modelos de Raciocínio de Grande Porte

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tem proporcionado ganhos impressionantes no raciocínio matemático e multimodal, tornando-se um paradigma padrão de pós-treinamento para modelos contemporâneos de linguagem e visão-linguagem. No entanto, a abordagem RLVR introduz um risco significativo de regressão de capacidades, em que os modelos esquecem habilidades fundamentais após treinamento prolongado sem a utilização de estratégias de regularização. Confirmamos empiricamente essa preocupação, observando que modelos de raciocínio de código aberto sofrem degradação de desempenho em capacidades centrais, como percepção e fidedignidade. Embora a imposição de termos de regularização, como a divergência KL, possa ajudar a prevenir o desvio do modelo base, esses termos são calculados na tarefa atual, portanto não garantem a preservação do conhecimento mais amplo. Entretanto, a prática comum de replay de experiência em domínios heterogêneos torna não trivial decidir quanto foco de treinamento cada objetivo deve receber. Para resolver isso, propomos o RECAP - uma estratégia de replay com rebalanceamento dinâmico de objetivos para preservação do conhecimento geral. Nosso mecanismo de rebalanceamento adapta-se de forma online usando sinais de convergência e instabilidade de curto prazo, deslocando o foco do pós-treinamento de objetivos saturados para aqueles com desempenho insuficiente ou voláteis. Nosso método é end-to-end e prontamente aplicável a pipelines RLVR existentes sem a necessidade de treinar modelos adicionais ou ajustes complexos. Experimentos extensivos em benchmarks baseados no Qwen2.5-VL-3B e Qwen2.5-VL-7B demonstram a eficácia do nosso método, que não apenas preserva capacidades gerais, mas também melhora o raciocínio ao permitir trade-offs mais flexíveis entre recompensas intrínsecas à tarefa.

English

Reinforcement learning with verifiable rewards (RLVR) has delivered impressive gains in mathematical and multimodal reasoning and has become a standard post-training paradigm for contemporary language and vision-language models. However, the RLVR recipe introduces a significant risk of capability regression, where models forget foundational skills after prolonged training without employing regularization strategies. We empirically confirm this concern, observing that open-source reasoning models suffer performance degradation on core capabilities such as perception and faithfulness. While imposing regularization terms like KL divergence can help prevent deviation from the base model, these terms are calculated on the current task, thus they do not guarantee broader knowledge. Meanwhile, commonly used experience replay across heterogeneous domains makes it nontrivial to decide how much training focus each objective should receive. To address this, we propose RECAP-a replay strategy with dynamic objective reweighting for general knowledge preservation. Our reweighting mechanism adapts in an online manner using short-horizon signals of convergence and instability, shifting the post-training focus away from saturated objectives and toward underperforming or volatile ones. Our method is end-to-end and readily applicable to existing RLVR pipelines without training additional models or heavy tuning. Extensive experiments on benchmarks based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our method, which not only preserves general capabilities but also improves reasoning by enabling more flexible trade-offs among in-task rewards.

Além dos Ganhos de Raciocínio: Mitigando o Esquecimento de Capacidades Gerais em Modelos de Raciocínio de Grande Porte

Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models

Resumo

Support