Superando o Esquecimento Catastrófico no Aprendizado Contínuo Visual com Ajuste Fino por Reforço

Resumo

Estudos recentes sugerem que o Ajuste Fino por Reforço (RFT) é inerentemente mais resiliente ao esquecimento catastrófico do que o Ajuste Fino Supervisionado (SFT). No entanto, a questão de se o RFT (e.g., GRPO) pode efetivamente superar o esquecimento em contextos desafiadores de aprendizado contínuo visual, como aprendizado incremental de classes (CIL) e aprendizado incremental de domínios (DIL), permanece em aberto. Por meio de um estudo piloto, confirmamos que, embora o RFT supere consistentemente o SFT, ele ainda sofre de esquecimento não desprezível. Rastreamos empiricamente esse gargalo ao Agnosticismo de Desvio em Nível de Trajetória: entre os rollouts candidatos que alcançam recompensas idênticas por tarefa, a divergência KL em relação à política da tarefa anterior varia substancialmente, o que se correlaciona fortemente com o esquecimento catastrófico ao longo de tarefas sequenciais. Motivados por essa percepção, propomos a Otimização de Política com Consciência de Retenção (RaPO), um método RFT simples, porém eficaz, que mitiga explicitamente o esquecimento por meio da modelagem de recompensa em nível de trajetória. Especificamente, o RaPO compreende dois componentes principais: (1) Recompensa de Retenção, que converte o desvio da distribuição em nível de trajetória em um sinal de recompensa contínuo, reforçando preferencialmente os rollouts que preservam conhecimento dentro de cada grupo; (2) Normalização de Vantagem entre Tarefas (CTAN), que mantém uma média móvel exponencial persistente das estatísticas de recompensa através dos limites das tarefas para estabilizar o progresso da otimização durante o aprendizado contínuo. Aproveitando a generalização textual de forma livre dos MLLMs, avaliamos abrangentemente o RaPO em cinco cenários de aprendizado contínuo visual. Experimentos extensos demonstram que o RaPO alcança desempenho de ponta, reduzindo substancialmente o esquecimento catastrófico enquanto preserva uma forte plasticidade. Até onde sabemos, este trabalho representa a primeira exploração sistemática do RFT no aprendizado contínuo visual, oferecendo insights que esperamos inspirar pesquisas futuras.

English

Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently more resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting. We empirically trace this bottleneck to Trajectory-level Drift Agnosticism: among candidate rollouts achieving identical task rewards, the KL divergence from the preceding-task policy varies substantially, which strongly correlates with catastrophic forgetting across sequential tasks. Motivated by this insight, we propose Retention-aware Policy Optimization (RaPO), a simple yet effective RFT method that explicitly mitigates forgetting through trajectory-level reward shaping. Specifically, RaPO comprises two core components: (1) Retention Reward that converts trajectory-level distribution drift into a continuous reward signal, preferentially reinforcing knowledge-preserving rollouts within each group; (2) Cross-Task Advantage Normalization (CTAN), which maintains a persistent exponential moving average of reward statistics across task boundaries to stabilize the optimization progress during continual learning. Leveraging the free-form textual generalization of MLLMs, we comprehensively evaluate RaPO across five visual continual learning settings. Extensive experiments demonstrate that RaPO achieves leading performance, substantially reducing catastrophic forgetting while preserving strong plasticity. To the best of our knowledge, this work represents the first systematic exploration of RFT in visual continual learning, offering insights that we hope will inspire future research.