Surmonter l'oubli catastrophique dans l'apprentissage continu visuel avec un ajustement fin par renforcement

Résumé

Des études récentes suggèrent que l'Ajustement Fin par Renforcement (RFT) est intrinsèquement plus résistant à l'oubli catastrophique que l'Ajustement Fin Supervisé (SFT). Cependant, la question de savoir si le RFT (par exemple, GRPO) peut effectivement surmonter l'oubli dans des contextes exigeants d'apprentissage continu visuel, tels que l'apprentissage incrémental par classe (CIL) et l'apprentissage incrémental par domaine (DIL), reste un problème ouvert. Grâce à une étude pilote, nous confirmons que bien que le RFT surpasse systématiquement le SFT, il souffre encore d'un oubli non négligeable. Nous attribuons empiriquement ce goulot d'étranglement à l'Agnosticisme de Dérive au Niveau des Trajectoires : parmi les déroulements candidats obtenant des récompenses de tâche identiques, la divergence KL par rapport à la politique de la tâche précédente varie considérablement, ce qui est fortement corrélé à l'oubli catastrophique entre les tâches séquentielles. Motivés par cette observation, nous proposons l'Optimisation de Politique avec Prise en Compte de la Rétention (RaPO), une méthode RFT simple mais efficace qui atténue explicitement l'oubli grâce à un façonnage de récompense au niveau des trajectoires. Spécifiquement, RaPO comprend deux composantes principales : (1) la Récompense de Rétention qui convertit la dérive de distribution au niveau des trajectoires en un signal de récompense continu, renforçant préférentiellement les déroulements préservant les connaissances au sein de chaque groupe ; (2) la Normalisation de l'Avantage Inter-Tâches (CTAN), qui maintient une moyenne mobile exponentielle persistante des statistiques de récompense à travers les frontières des tâches afin de stabiliser la progression de l'optimisation durant l'apprentissage continu. En exploitant la généralisation textuelle libre des MLLMs, nous évaluons de manière exhaustive RaPO sur cinq contextes d'apprentissage continu visuel. Des expériences approfondies démontrent que RaPO atteint des performances de premier plan, réduisant considérablement l'oubli catastrophique tout en préservant une forte plasticité. À notre connaissance, ce travail représente la première exploration systématique du RFT dans l'apprentissage continu visuel, offrant des perspectives que nous espérons inspireront les recherches futures.

English

Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently more resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting. We empirically trace this bottleneck to Trajectory-level Drift Agnosticism: among candidate rollouts achieving identical task rewards, the KL divergence from the preceding-task policy varies substantially, which strongly correlates with catastrophic forgetting across sequential tasks. Motivated by this insight, we propose Retention-aware Policy Optimization (RaPO), a simple yet effective RFT method that explicitly mitigates forgetting through trajectory-level reward shaping. Specifically, RaPO comprises two core components: (1) Retention Reward that converts trajectory-level distribution drift into a continuous reward signal, preferentially reinforcing knowledge-preserving rollouts within each group; (2) Cross-Task Advantage Normalization (CTAN), which maintains a persistent exponential moving average of reward statistics across task boundaries to stabilize the optimization progress during continual learning. Leveraging the free-form textual generalization of MLLMs, we comprehensively evaluate RaPO across five visual continual learning settings. Extensive experiments demonstrate that RaPO achieves leading performance, substantially reducing catastrophic forgetting while preserving strong plasticity. To the best of our knowledge, this work represents the first systematic exploration of RFT in visual continual learning, offering insights that we hope will inspire future research.