Mitigação do Esquecimento Intra e Intermodal na Aprendizagem Contínua de Modelos Multimodais Unificados

Resumo

Os Modelos Generativos Multimodais Unificados (UMGMs) integram a compreensão visual e a geração de imagens num único framework autoregressivo. No entanto, a sua capacidade de aprender continuamente novas tarefas é severamente limitada pelo esquecimento catastrófico, tanto dentro de uma modalidade (intra-modal) como entre modalidades (inter-modal). Embora o esquecimento intra-modal tenha sido estudado em trabalhos anteriores de aprendizagem contínua (CL), o esquecimento inter-modal permanece largamente inexplorado. Neste artigo, identificamos e validamos empiricamente este fenómeno em UMGMs e fornecemos uma explicação teórica baseada no conflito de gradientes entre modalidades. Para abordar tanto o esquecimento intra como inter-modal, propomos os Especialistas com Modalidades Desacopladas (MoDE), uma arquitetura leve e escalável que isola as atualizações específicas de cada modalidade para mitigar o conflito de gradientes e aproveita a destilação de conhecimento para prevenir o esquecimento catastrófico e preservar as capacidades pré-treinadas. Ao contrário de métodos anteriores de CL que permanecem com modalidades acopladas e sofrem com o conflito de gradientes entre modalidades, o MoDE desacopla explicitamente as modalidades para evitar interferência. Experiências em diversos *benchmarks* demonstram que o MoDE mitiga significativamente tanto o esquecimento inter como intra-modal, superando as linhas de base anteriores de CL em configurações unificadas de geração multimodal. Os códigos estarão publicamente disponíveis: https://github.com/Christina200/MoDE-official.git

English

Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git

Mitigação do Esquecimento Intra e Intermodal na Aprendizagem Contínua de Modelos Multimodais Unificados

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

Resumo

Support