Mitigazione della Dimenticanza Intra- e Inter-modale nell'Apprendimento Continuo di Modelli Multimediali Unificati
Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
December 2, 2025
Autori: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI
Abstract
I Modelli Generativi Multimodali Unificati (UMGM) integrano la comprensione visiva e la generazione di immagini all'interno di un unico framework autoregressivo. Tuttavia, la loro capacità di apprendere continuamente nuovi compiti è fortemente ostacolata dal fenomeno dell'oblio catastrofico, sia all'interno di una singola modalità (oblio intra-modale) che tra modalità diverse (oblio inter-modale). Sebbene l'oblio intra-modale sia stato studiato in precedenti lavori sull'apprendimento continuo (CL), l'oblio inter-modale rimane in gran parte inesplorato. In questo articolo, identifichiamo e convalidiamo empiricamente questo fenomeno negli UMGMs e forniamo una spiegazione teorica radicata nel conflitto di gradiente tra le modalità. Per affrontare sia l'oblio intra- che inter-modale, proponiamo Modality-Decoupled Experts (MoDE), un'architettura leggera e scalabile che isola gli aggiornamenti specifici per modalità per mitigare il conflitto di gradiente e sfrutta la distillazione della conoscenza per prevenire l'oblio catastrofico e preservare le capacità pre-addestrate. A differenza dei precedenti metodi di CL che rimangono accoppiati alle modalità e soffrono del conflitto di gradiente modale, MoDE disaccoppa esplicitamente le modalità per prevenire l'interferenza. Esperimenti su diversi benchmark dimostrano che MoDE mitiga significativamente sia l'oblio inter- che intra-modale, superando i precedenti baseline di CL in contesti di generazione multimodale unificata. I codici saranno pubblicamente disponibili: https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git