ChatPaper.aiChatPaper

통합 멀티모달 모델의 연속 학습에서 내부 및 상호 모달 간 망각 완화

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

December 2, 2025
저자: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI

초록

통합 멀티모달 생성 모델(UMGM)은 시각적 이해와 이미지 생성을 단일 자회귀 프레임워크 내에서 통합합니다. 그러나 새로운 작업을 지속적으로 학습하는 능력은 단일 모달리티 내(intra-modal) 및 모달리티 간(inter-modal)에서 발생하는 파국적 망각(catastrophic forgetting)으로 인해 심각하게 저해됩니다. 단일 모달리티 내 망각은 기존 지속 학습(CL) 연구에서 다루어진 바 있으나, 모달리티 간 망각은 대체로 미개척 분야로 남아 있습니다. 본 논문에서는 UMGMs에서 이러한 현상을 확인하고 실증적으로 검증하며, 모달리티 간 그래디언트 충돌(gradient conflict)에 기반한 이론적 설명을 제시합니다. 단일 및 모달리티 간 망각을 동시에 해결하기 위해 우리는 MoDE(Modality-Decoupled Experts)를 제안합니다. MoDE는 경량 및 확장 가능한 구조로, 모달리티별 업데이트를 분리하여 그래디언트 충돌을 완화하고 지식 증류(knowledge distillation)를 활용하여 파국적 망각을 방지하고 사전 학습된 능력을 보존합니다. 모달리티가 여전히 결합되어 있고 모달리티 그래디언트 충돌을 겪는 기존 CL 방법과 달리, MoDE는 모달리티를 명시적으로 분리하여 간섭을 방지합니다. 다양한 벤치마크를 통한 실험 결과, MoDE는 모달리티 간 및 단일 모달리티 내 망각을 모두 현저히 완화하며, 통합 멀티모달 생성 환경에서 기존 CL 기준선을 능가하는 성능을 보여줍니다. 코드는 공개될 예정입니다: https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git
PDF11December 6, 2025