Het verminderen van intra- en intermodaal vergeten bij continu leren van verenigde multimodale modellen
Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
December 2, 2025
Auteurs: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI
Samenvatting
Unified Multimale Generatieve Modellen (UMGM's) integreren visueel begrip en beeldgeneratie binnen een enkel autoregressief raamwerk. Hun vermogen om continu nieuwe taken te leren, wordt echter ernstig belemmerd door catastrofaal vergeten, zowel binnen een modaliteit (intra-modale vergetelheid) als tussen modaliteiten (inter-modale vergetelheid). Hoewel intra-modale vergetelheid in eerder werk over continu leren is bestudeerd, blijft inter-modale vergetelheid grotendeels onontgonnen. In dit artikel identificeren en valideren we dit fenomeen empirisch in UMGM's en geven we een theoretische verklaring gebaseerd op gradiëntconflict tussen modaliteiten. Om zowel intra- als inter-modale vergetelheid aan te pakken, stellen we Modality-Decoupled Experts (MoDE) voor, een lichtgewicht en schaalbare architectuur die modaliteit-specifieke updates isoleert om het gradiëntconflict te mitigeren en gebruikmaakt van knowledge distillation om catastrofaal vergeten te voorkomen en vooraf getrainde capaciteiten te behouden. In tegenstelling tot eerdere CL-methoden die modaliteit-gekoppeld blijven en lijden onder modaliteit gradiëntconflict, ontkoppelt MoDE modaliteiten expliciet om interferentie te voorkomen. Experimenten met diverse benchmarks tonen aan dat MoDE zowel inter- als intra-modale vergetelheid significant vermindert en daarmee eerdere CL-baselines overtreft in unified multimodale generatie-instellingen. Code zal openbaar beschikbaar worden gesteld: https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git