ChatPaper.aiChatPaper

Minderung von intra- und intermodalem Vergessen beim kontinuierlichen Lernen vereinheitlichter multimodaler Modelle

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

December 2, 2025
papers.authors: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI

papers.abstract

Vereinheitlichte multimodale generative Modelle (UMGMs) integrierieren visuelles Verständnis und Bildgenerierung in einem einzigen autoregressiven Framework. Ihre Fähigkeit, neue Aufgaben kontinuierlich zu lernen, wird jedoch erheblich durch katastrophales Vergessen beeinträchtigt, sowohl innerhalb einer Modalität (intramodal) als auch modalitätsübergreifend (intermodal). Während intramodales Vergessen in früheren Arbeiten zum kontinuierlichen Lernen (CL) untersucht wurde, ist intermodales Vergessen weitgehend unerforscht. In diesem Beitrag identifizieren und validieren wir dieses Phänomen empirisch in UMGMs und liefern eine theoretische Erklärung, die in Gradientenkonflikten zwischen Modalitäten wurzelt. Um sowohl intra- als auch intermodales Vergessen zu adressieren, schlagen wir Modality-Decoupled Experts (MoDE) vor, eine leichtgewichtige und skalierbare Architektur, die modalitätsspezifische Aktualisierungen isoliert, um den Gradientenkonflikt zu entschärfen, und Wissensdistillation nutzt, um katastrophales Vergessen zu verhindern und vortrainierte Fähigkeiten zu bewahren. Im Gegensatz zu früheren CL-Methoden, die modalitätsgekoppelt bleiben und unter Modalitäts-Gradientenkonflikten leiden, entkoppelt MoDE Modalitäten explizit, um Interferenzen zu vermeiden. Experimente über diverse Benchmarks zeigen, dass MoDE sowohl inter- als auch intramodales Vergessen signifikant reduziert und bisherige CL-Baselines in vereinheitlichten multimodalen Generierungsszenarien übertrifft. Codes werden öffentlich verfügbar sein: https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git
PDF11December 6, 2025