ChatPaper.aiChatPaper

Überwindung des katastrophalen Vergessens beim visuellen kontinuierlichen Lernen mit Reinforcement-Feintuning

Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

May 10, 2026
Autoren: Meng Lou, Hanzhong Guo, Linwei Chen, Yizhou Yu
cs.AI

Zusammenfassung

Neuere Studien deuten darauf hin, dass Reinforcement Feintuning (RFT) von Natur aus widerstandsfähiger gegen katastrophales Vergessen ist als überwachtes Feintuning (SFT). Allerdings bleibt offen, ob RFT (z. B. GRPO) das Vergessen in anspruchsvollen visuellen kontinuierlichen Lernsettings wie klasseninkrementellem Lernen (CIL) und domaininkrementellem Lernen (DIL) wirksam überwinden kann. Durch eine Pilotstudie bestätigen wir, dass RFT zwar durchgängig besser abschneidet als SFT, jedoch immer noch unter nicht vernachlässigbarem Vergessen leidet. Wir führen diesen Engpass empirisch auf Trajektorien-Drift-Agnostizismus zurück: Bei Kandidaten-Rollouts, die identische Aufgabenbelohnungen erzielen, variiert die KL-Divergenz von der Politik der vorherigen Aufgabe erheblich, was stark mit katastrophalem Vergessen über aufeinanderfolgende Aufgaben hinweg korreliert. Ausgehend von dieser Erkenntnis schlagen wir die retentionsbewusste Policy-Optimierung (RaPO) vor, eine einfache und dennoch effektive RFT-Methode, die das Vergessen durch Belohnungsformung auf Trajektorienebene explizit abschwächt. Insbesondere umfasst RaPO zwei Kernkomponenten: (1) Retentionsbelohnung, die die Verteilungsdrift auf Trajektorienebene in ein kontinuierliches Belohnungssignal umwandelt und dabei wissensbewahrende Rollouts innerhalb jeder Gruppe bevorzugt verstärkt; (2) aufgabenübergreifende Vorteilsnormalisierung (CTAN), die einen persistenten exponentiell gleitenden Durchschnitt der Belohnungsstatistiken über Aufgabengrenzen hinweg aufrechterhält, um den Optimierungsfortschritt während des kontinuierlichen Lernens zu stabilisieren. Unter Nutzung der freiformigen textuellen Generalisierung multimodaler großer Sprachmodelle (MLLMs) evaluieren wir RaPO umfassend in fünf visuellen kontinuierlichen Lernsettings. Umfangreiche Experimente zeigen, dass RaPO eine führende Leistung erzielt, das katastrophale Vergessen erheblich reduziert und gleichzeitig eine starke Plastizität bewahrt. Nach unserem besten Wissen stellt diese Arbeit die erste systematische Untersuchung von RFT im visuellen kontinuierlichen Lernen dar und bietet Einblicke, von denen wir hoffen, dass sie zukünftige Forschung inspirieren werden.
English
Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently more resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting. We empirically trace this bottleneck to Trajectory-level Drift Agnosticism: among candidate rollouts achieving identical task rewards, the KL divergence from the preceding-task policy varies substantially, which strongly correlates with catastrophic forgetting across sequential tasks. Motivated by this insight, we propose Retention-aware Policy Optimization (RaPO), a simple yet effective RFT method that explicitly mitigates forgetting through trajectory-level reward shaping. Specifically, RaPO comprises two core components: (1) Retention Reward that converts trajectory-level distribution drift into a continuous reward signal, preferentially reinforcing knowledge-preserving rollouts within each group; (2) Cross-Task Advantage Normalization (CTAN), which maintains a persistent exponential moving average of reward statistics across task boundaries to stabilize the optimization progress during continual learning. Leveraging the free-form textual generalization of MLLMs, we comprehensively evaluate RaPO across five visual continual learning settings. Extensive experiments demonstrate that RaPO achieves leading performance, substantially reducing catastrophic forgetting while preserving strong plasticity. To the best of our knowledge, this work represents the first systematic exploration of RFT in visual continual learning, offering insights that we hope will inspire future research.