Het beteugelen van modaliteitsvervlechting in continue audio-visuele segmentatie
Taming Modality Entanglement in Continual Audio-Visual Segmentation
October 20, 2025
Auteurs: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI
Samenvatting
Onlangs is er aanzienlijke vooruitgang geboekt in multimodale continuële leren, met als doel nieuwe taken sequentieel aan te leren in multimodale settings, terwijl de prestaties op eerder geleerde taken behouden blijven. Bestaande methoden richten zich echter voornamelijk op grofkorrelige taken en kennen beperkingen bij het aanpakken van modaliteitsverstrengeling in fijnkorrelige continuële-leersettings. Om deze kloof te overbruggen, introduceren we een nieuwe taak: Continual Audio-Visual Segmentation (CAVS), die erop gericht is continu nieuwe klassen te segmenteren onder begeleiding van audio. Uit uitgebreide analyse zijn twee kritieke uitdagingen geïdentificeerd: 1) multimodale semantische drift, waarbij een geluidproducerend object in opeenvolgende taken als achtergrond wordt gelabeld; 2) co-voorkomende verwarring, waarbij vaak samen voorkomende klassen de neiging hebben verward te raken. In dit werk wordt een op botsing gebaseerd multimodaal herhalingsraamwerk (CMR) ontworpen om deze uitdagingen aan te pakken. Specifiek wordt voor multimodale semantische drift een multimodale steekproefselectiestrategie (MSS) voorgesteld om steekproeven met hoge modale consistentie te selecteren voor herhaling. Tegelijkertijd is voor co-voorkomende verwarring een op botsing gebaseerd steekproefherhalingsmechanisme (CSR) ontworpen, waarmee de herhalingsfrequentie van die verwarrende klassen tijdens het trainingsproces kan worden verhoogd. Bovendien construeren we drie audio-visuele incrementele scenario's om de effectiviteit van onze methode te verifiëren. Uitgebreide experimenten tonen aan dat onze methode significant beter presteert dan unimodale continuële-leermethoden.
English
Recently, significant progress has been made in multi-modal continual
learning, aiming to learn new tasks sequentially in multi-modal settings while
preserving performance on previously learned ones. However, existing methods
mainly focus on coarse-grained tasks, with limitations in addressing modality
entanglement in fine-grained continual learning settings. To bridge this gap,
we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to
continuously segment new classes guided by audio. Through comprehensive
analysis, two critical challenges are identified: 1) multi-modal semantic
drift, where a sounding objects is labeled as background in sequential tasks;
2) co-occurrence confusion, where frequent co-occurring classes tend to be
confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework
is designed to address these challenges. Specifically, for multi-modal semantic
drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select
samples with high modal consistency for rehearsal. Meanwhile, for co-occurence
confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed,
allowing for the increase of rehearsal sample frequency of those confusable
classes during training process. Moreover, we construct three audio-visual
incremental scenarios to verify effectiveness of our method. Comprehensive
experiments demonstrate that our method significantly outperforms single-modal
continual learning methods.