ChatPaper.aiChatPaper

Смягчение внутри- и межмодального забывания при непрерывном обучении унифицированных мультимодальных моделей

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

December 2, 2025
Авторы: Xiwen Wei, Mustafa Munir, Radu Marculescu
cs.AI

Аннотация

Унифицированные мультимодальные генеративные модели (UMGM) объединяют визуальное понимание и генерацию изображений в рамках единой авторегрессионной архитектуры. Однако их способность к непрерывному обучению новым задачам серьезно ограничена проблемой катастрофического забывания, как внутри модальности (внутримодальное), так и между модальностями (межмодальное). Хотя внутримодальное забывание изучалось в предыдущих работах по непрерывному обучению (CL), межмодальное забывание остается в значительной степени неисследованным. В данной статье мы выявляем и эмпирически подтверждаем это явление в UMGM, а также предлагаем теоретическое объяснение, основанное на конфликте градиентов между модальностями. Для решения проблем как внутримодального, так и межмодального забывания мы предлагаем архитектуру Modality-Decoupled Experts (MoDE) — легковесную и масштабируемую систему, которая изолирует обновления, специфичные для каждой модальности, чтобы смягчить конфликт градиентов, и использует дистилляцию знаний для предотвращения катастрофического забывания и сохранения предобученных возможностей. В отличие от предыдущих методов CL, которые остаются связными по модальностям и страдают от конфликта градиентов модальностей, MoDE явно разделяет модальности, чтобы предотвратить interference. Эксперименты на различных бенчмарках демонстрируют, что MoDE существенно снижает как межмодальное, так и внутримодальное забывание, превосходя предыдущие базовые методы CL в условиях унифицированной мультимодальной генерации. Код будет общедоступен: https://github.com/Christina200/MoDE-official.git
English
Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git
PDF11December 6, 2025