Het overwinnen van catastrofaal vergeten in visueel continu leren met versterkend fijnstemmen

Samenvatting

Recente studies suggereren dat Reinforcement Fine-Tuning (RFT) inherent beter bestand is tegen catastrofaal vergeten dan Supervised Fine-Tuning (SFT). Of RFT (bijv. GRPO) vergeten effectief kan overwinnen in uitdagende visuele continue leersettings, zoals klasse-incrementeel leren (CIL) en domein-incrementeel leren (DIL), blijft echter een openstaand probleem. Via een pilotstudie bevestigen we dat, hoewel RFT consequent beter presteert dan SFT, het nog steeds te maken heeft met niet-verwaarloosbaar vergeten. We traceren deze bottleneck empirisch naar Trajectniveau-driftafwezigheid: onder kandidaat-rollouts die identieke taakbeloningen behalen, varieert de KL-divergentie van het beleid van de voorgaande taak aanzienlijk, wat sterk correleert met catastrofaal vergeten over opeenvolgende taken. Gemotiveerd door dit inzicht stellen we Retention-aware Policy Optimization (RaPO) voor, een eenvoudige maar effectieve RFT-methode die vergeten expliciet beperkt door beloningsvormgeving op trajectniveau. Specifiek omvat RaPO twee kerncomponenten: (1) Retentiebeloning die distributieverschuiving op trajectniveau omzet in een continu beloningssignaal, waarbij kennisbehoudende rollouts binnen elke groep preferentieel worden versterkt; (2) Cross-Task Advantage Normalization (CTAN), die een persistent exponentieel voortschrijdend gemiddelde van beloningsstatistieken over taakgrenzen heen handhaaft om de optimalisatievoortgang tijdens continu leren te stabiliseren. Door gebruik te maken van de vrij-vorm tekstuele generalisatie van MLLM's, evalueren we RaPO uitgebreid over vijf visuele continue leersettings. Uitgebreide experimenten tonen aan dat RaPO topprestaties levert, waarbij catastrofaal vergeten aanzienlijk wordt verminderd terwijl een sterke plasticiteit behouden blijft. Voor zover wij weten, vertegenwoordigt dit werk de eerste systematische verkenning van RFT in visueel continu leren, met inzichten die hopelijk toekomstig onderzoek zullen inspireren.

English

Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently more resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting. We empirically trace this bottleneck to Trajectory-level Drift Agnosticism: among candidate rollouts achieving identical task rewards, the KL divergence from the preceding-task policy varies substantially, which strongly correlates with catastrophic forgetting across sequential tasks. Motivated by this insight, we propose Retention-aware Policy Optimization (RaPO), a simple yet effective RFT method that explicitly mitigates forgetting through trajectory-level reward shaping. Specifically, RaPO comprises two core components: (1) Retention Reward that converts trajectory-level distribution drift into a continuous reward signal, preferentially reinforcing knowledge-preserving rollouts within each group; (2) Cross-Task Advantage Normalization (CTAN), which maintains a persistent exponential moving average of reward statistics across task boundaries to stabilize the optimization progress during continual learning. Leveraging the free-form textual generalization of MLLMs, we comprehensively evaluate RaPO across five visual continual learning settings. Extensive experiments demonstrate that RaPO achieves leading performance, substantially reducing catastrophic forgetting while preserving strong plasticity. To the best of our knowledge, this work represents the first systematic exploration of RFT in visual continual learning, offering insights that we hope will inspire future research.