Mitigación del Olvido Intra e Intermodal en el Aprendizaje Continuo de Modelos Multimodales Unificados
Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
December 2, 2025
Autores: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI
Resumen
Los Modelos Generativos Multimodales Unificados (UMGM, por sus siglas en inglés) unifican la comprensión visual y la generación de imágenes dentro de un único marco autoregresivo. Sin embargo, su capacidad para aprender continuamente nuevas tareas se ve severamente obstaculizada por el olvido catastrófico, tanto dentro de una modalidad (intra-modal) como entre modalidades (inter-modal). Si bien el olvido intra-modal ha sido estudiado en trabajos previos de aprendizaje continuo (CL), el olvido inter-modal permanece en gran medida inexplorado. En este artículo, identificamos y validamos empíricamente este fenómeno en los UMGMs y proporcionamos una explicación teórica basada en el conflicto de gradientes entre modalidades. Para abordar tanto el olvido intra-modal como el inter-modal, proponemos Expertos Desacoplados por Modalidad (MoDE), una arquitectura ligera y escalable que aísla las actualizaciones específicas de cada modalidad para mitigar el conflicto de gradientes y aprovecha la destilación de conocimiento para prevenir el olvido catastrófico y preservar las capacidades preentrenadas. A diferencia de los métodos CL anteriores que permanecen acoplados por modalidad y sufren de conflicto de gradientes modal, MoDE desacopla explícitamente las modalidades para evitar interferencias. Los experimentos en diversos benchmarks demuestran que MoDE mitiga significativamente tanto el olvido inter-modal como el intra-modal, superando a los baselines CL previos en entornos unificados de generación multimodal. Los códigos estarán disponibles públicamente: https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git