Atténuation de l'oubli intra- et inter-modal dans l'apprentissage continu des modèles multimodaux unifiés
Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
December 2, 2025
papers.authors: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI
papers.abstract
Les modèles génératifs multimodaux unifiés (UMGM) unifient la compréhension visuelle et la génération d'images au sein d'un unique cadre autorégressif. Cependant, leur capacité à apprendre continuellement de nouvelles tâches est sévèrement entravée par l'oubli catastrophique, à la fois au sein d'une modalité (intra-modale) et entre les modalités (inter-modale). Si l'oubli intra-modal a été étudié dans les travaux antérieurs sur l'apprentissage continu (CL), l'oubli inter-modal reste largement inexploré. Dans cet article, nous identifions et validons empiriquement ce phénomène dans les UMGMs et en fournissons une explication théorique ancrée dans le conflit de gradients entre les modalités. Pour résoudre à la fois l'oubli intra- et inter-modal, nous proposons Modality-Decoupled Experts (MoDE), une architecture légère et évolutive qui isole les mises à jour spécifiques à chaque modalité pour atténuer le conflit de gradients et qui exploite la distillation de connaissances pour prévenir l'oubli catastrophique et préserver les capacités pré-entraînées. Contrairement aux méthodes CL antérieures qui restent couplées aux modalités et souffrent du conflit de gradients modal, MoDE découple explicitement les modalités pour éviter les interférences. Les expériences menées sur divers benchmarks démontrent que MoDE atténue significativement à la fois l'oubli inter- et intra-modal, surpassant les lignes de base CL précédentes dans des contextes de génération multimodale unifiée. Les codes seront publiquement disponibles : https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git