Superando el olvido catastrófico en el aprendizaje continuo visual mediante ajuste fino por refuerzo

Resumen

Estudios recientes sugieren que el Ajuste Fino por Refuerzo (RFT) es inherentemente más resiliente al olvido catastrófico que el Ajuste Fino Supervisado (SFT). Sin embargo, queda abierto si el RFT (p.ej., GRPO) puede superar eficazmente el olvido en entornos desafiantes de aprendizaje continuo visual, como el aprendizaje incremental por clases (CIL) y el aprendizaje incremental por dominios (DIL). Mediante un estudio piloto, confirmamos que, si bien el RFT supera consistentemente al SFT, aún sufre un olvido no despreciable. Atribuimos empíricamente este cuello de botella al Agnosticismo de Desviación a Nivel de Trayectoria: entre los rollouts candidatos que logran recompensas de tarea idénticas, la divergencia KL con respecto a la política de la tarea anterior varía sustancialmente, lo cual se correlaciona fuertemente con el olvido catastrófico a lo largo de tareas secuenciales. Motivados por esta observación, proponemos la Optimización de Políticas con Conciencia de Retención (RaPO), un método de RFT simple pero efectivo que mitiga explícitamente el olvido mediante la conformación de recompensas a nivel de trayectoria. Específicamente, RaPO comprende dos componentes centrales: (1) Recompensa por Retención, que convierte la desviación de la distribución a nivel de trayectoria en una señal de recompensa continua, reforzando preferentemente los rollouts que preservan el conocimiento dentro de cada grupo; (2) Normalización de Ventaja entre Tareas (CTAN), que mantiene un promedio móvil exponencial persistente de las estadísticas de recompensa a través de los límites de las tareas para estabilizar el proceso de optimización durante el aprendizaje continuo. Aprovechando la generalización textual de forma libre de los MLLMs, evaluamos exhaustivamente RaPO en cinco entornos de aprendizaje continuo visual. Experimentos extensos demuestran que RaPO logra un rendimiento líder, reduciendo sustancialmente el olvido catastrófico mientras preserva una fuerte plasticidad. Hasta donde sabemos, este trabajo representa la primera exploración sistemática de RFT en el aprendizaje continuo visual, ofreciendo perspectivas que esperamos inspiren investigaciones futuras.

English

Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently more resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting. We empirically trace this bottleneck to Trajectory-level Drift Agnosticism: among candidate rollouts achieving identical task rewards, the KL divergence from the preceding-task policy varies substantially, which strongly correlates with catastrophic forgetting across sequential tasks. Motivated by this insight, we propose Retention-aware Policy Optimization (RaPO), a simple yet effective RFT method that explicitly mitigates forgetting through trajectory-level reward shaping. Specifically, RaPO comprises two core components: (1) Retention Reward that converts trajectory-level distribution drift into a continuous reward signal, preferentially reinforcing knowledge-preserving rollouts within each group; (2) Cross-Task Advantage Normalization (CTAN), which maintains a persistent exponential moving average of reward statistics across task boundaries to stabilize the optimization progress during continual learning. Leveraging the free-form textual generalization of MLLMs, we comprehensively evaluate RaPO across five visual continual learning settings. Extensive experiments demonstrate that RaPO achieves leading performance, substantially reducing catastrophic forgetting while preserving strong plasticity. To the best of our knowledge, this work represents the first systematic exploration of RFT in visual continual learning, offering insights that we hope will inspire future research.