Преодоление катастрофического забывания в визуальном непрерывном обучении с помощью дообучения с подкреплением

Аннотация

Недавние исследования показывают, что уточнение с подкреплением (Reinforcement Fine-Tuning, RFT) по своей природе более устойчиво к катастрофическому забыванию, чем уточнение с учителем (Supervised Fine-Tuning, SFT). Однако остается открытым вопрос, способен ли RFT (например, GRPO) эффективно преодолевать забывание в сложных задачах непрерывного визуального обучения, таких как инкрементное обучение классов (class-incremental learning, CIL) и инкрементное обучение доменов (domain-incremental learning, DIL). В ходе пилотного исследования мы подтверждаем, что, хотя RFT стабильно превосходит SFT, он все же страдает от существенного забывания. Эмпирически мы связываем это узкое место с агностицизмом дрейфа на уровне траекторий: среди кандидатов-траекторий, получающих одинаковые вознаграждения за задачу, расхождение Кульбака–Лейблера с политикой предыдущей задачи существенно варьируется, что сильно коррелирует с катастрофическим забыванием при последовательном решении задач. Основываясь на этом наблюдении, мы предлагаем оптимизацию политики с учетом удержания знаний (Retention-aware Policy Optimization, RaPO) – простой, но эффективный метод RFT, который явно смягчает забывание путем формирования вознаграждения на уровне траекторий. В частности, RaPO включает два ключевых компонента: (1) награду за удержание (Retention Reward), преобразующую дрейф распределения на уровне траекторий в непрерывный сигнал вознаграждения, который отдает предпочтение траекториям, сохраняющим знания, внутри каждой группы; (2) нормализацию преимущества между задачами (Cross-Task Advantage Normalization, CTAN), поддерживающую устойчивое экспоненциальное скользящее среднее статистик вознаграждения на границах задач для стабилизации процесса оптимизации в ходе непрерывного обучения. Используя свободную текстовую генерализацию мультимодальных больших языковых моделей (MLLMs), мы всесторонне оцениваем RaPO в пяти конфигурациях непрерывного визуального обучения. Обширные эксперименты демонстрируют, что RaPO достигает ведущих показателей, существенно снижая катастрофическое забывание при сохранении высокой пластичности. Насколько нам известно, эта работа представляет собой первое систематическое исследование RFT в контексте непрерывного визуального обучения и предлагает идеи, которые, как мы надеемся, вдохновят будущие исследования.

English

Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently more resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting. We empirically trace this bottleneck to Trajectory-level Drift Agnosticism: among candidate rollouts achieving identical task rewards, the KL divergence from the preceding-task policy varies substantially, which strongly correlates with catastrophic forgetting across sequential tasks. Motivated by this insight, we propose Retention-aware Policy Optimization (RaPO), a simple yet effective RFT method that explicitly mitigates forgetting through trajectory-level reward shaping. Specifically, RaPO comprises two core components: (1) Retention Reward that converts trajectory-level distribution drift into a continuous reward signal, preferentially reinforcing knowledge-preserving rollouts within each group; (2) Cross-Task Advantage Normalization (CTAN), which maintains a persistent exponential moving average of reward statistics across task boundaries to stabilize the optimization progress during continual learning. Leveraging the free-form textual generalization of MLLMs, we comprehensively evaluate RaPO across five visual continual learning settings. Extensive experiments demonstrate that RaPO achieves leading performance, substantially reducing catastrophic forgetting while preserving strong plasticity. To the best of our knowledge, this work represents the first systematic exploration of RFT in visual continual learning, offering insights that we hope will inspire future research.