Domando o Emaranhamento de Modalidades na Segmentação Áudio-Visual Contínua
Taming Modality Entanglement in Continual Audio-Visual Segmentation
October 20, 2025
Autores: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI
Resumo
Recentemente, foram feitos progressos significativos na aprendizagem contínua multimodal, que visa aprender novas tarefas sequencialmente em ambientes multimodais, preservando o desempenho nas tarefas já aprendidas. No entanto, os métodos existentes concentram-se principalmente em tarefas de granularidade grossa, com limitações para abordar o entrelaçamento de modalidades em configurações de aprendizagem contínua de granularidade fina. Para preencher essa lacuna, introduzimos uma nova tarefa de Segmentação Áudio-Visual Contínua (CAVS), que visa segmentar continuamente novas classes guiadas por áudio. Através de uma análise abrangente, foram identificados dois desafios críticos: 1) o desvio semântico multimodal, onde um objeto sonoro é classificado como plano de fundo em tarefas sequenciais; 2) a confusão de co-ocorrência, onde classes que frequentemente co-ocorrem tendem a ser confundidas. Neste trabalho, é projetada uma estrutura de Revisão Multimodal Baseada em Colisão (CMR) para enfrentar esses desafios. Especificamente, para o desvio semântico multimodal, é proposta uma estratégia de Seleção de Amostras Multimodal (MSS) para selecionar amostras com alta consistência modal para revisão. Paralelamente, para a confusão de co-ocorrência, é concebido um mecanismo de Revisão de Amostras Baseado em Colisão (CSR), permitindo aumentar a frequência de amostras de revisão dessas classes confundíveis durante o processo de treinamento. Adicionalmente, construímos três cenários incrementais áudio-visuais para verificar a eficácia do nosso método. Experimentos abrangentes demonstram que o nosso método supera significativamente os métodos de aprendizagem contínua unimodal.
English
Recently, significant progress has been made in multi-modal continual
learning, aiming to learn new tasks sequentially in multi-modal settings while
preserving performance on previously learned ones. However, existing methods
mainly focus on coarse-grained tasks, with limitations in addressing modality
entanglement in fine-grained continual learning settings. To bridge this gap,
we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to
continuously segment new classes guided by audio. Through comprehensive
analysis, two critical challenges are identified: 1) multi-modal semantic
drift, where a sounding objects is labeled as background in sequential tasks;
2) co-occurrence confusion, where frequent co-occurring classes tend to be
confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework
is designed to address these challenges. Specifically, for multi-modal semantic
drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select
samples with high modal consistency for rehearsal. Meanwhile, for co-occurence
confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed,
allowing for the increase of rehearsal sample frequency of those confusable
classes during training process. Moreover, we construct three audio-visual
incremental scenarios to verify effectiveness of our method. Comprehensive
experiments demonstrate that our method significantly outperforms single-modal
continual learning methods.