統合マルチモーダルモデルの継続的学習におけるモダリティ内・モダリティ間忘却の軽減
Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
December 2, 2025
著者: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI
要旨
統合マルチモーダル生成モデル(UMGM)は、単一の自己回帰フレームワーク内で視覚的理解と画像生成を統合する。しかしながら、新しいタスクを継続的に学習する能力は、モダリティ内(モーダル内)およびモダリティ間(モーダル間)の両方で生じる破滅的忘却によって深刻に妨げられている。モーダル内忘却については従来の継続学習(CL)研究で扱われてきたが、モーダル間忘却はほとんど未開拓のままである。本論文では、UMGMにおけるこの現象を特定し実証的に検証するとともに、モダリティ間の勾配競合に根ざす理論的説明を提供する。モーダル内およびモーダル間の両方の忘却に対処するため、軽量でスケーラブルなアーキテクチャであるModality-Decoupled Experts(MoDE)を提案する。本手法は、モダリティ固有の更新を分離して勾配競合を緩和し、知識蒸留を活用して破滅的忘却を防止し、事前学習済みの能力を保持する。モダリティ結合を維持しモダリティ勾配競合に悩む従来のCL手法とは異なり、MoDEはモダリティを明示的に分離して干渉を防ぐ。多様なベンチマークによる実験により、MoDEがモーダル間およびモーダル内の両方の忘却を大幅に緩和し、統合マルチモーダル生成設定において従来のCLベースライン手法を凌駕することを実証する。コードは公開予定である:https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git