ChatPaper.aiChatPaper

Domare l'Intreccio Modale nella Segmentazione Audio-Visuale Continua

Taming Modality Entanglement in Continual Audio-Visual Segmentation

October 20, 2025
Autori: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI

Abstract

Recentemente sono stati compiuti progressi significativi nell'apprendimento continuo multimodale, che mira ad apprendere nuovi task in sequenza in contesti multimodali preservando le prestazioni su quelli appresi in precedenza. Tuttavia, i metodi esistenti si concentrano principalmente su task a granularità grossolana, presentando limitazioni nell'affrontare l'entanglement delle modalità in contesti di apprendimento continuo a granularità fine. Per colmare questa lacuna, introduciamo un nuovo task di Segmentazione Audio-Visuale Continua (CAVS), finalizzato a segmentare continuamente nuove classi guidati dall'audio. Attraverso un'analisi approfondita, sono state identificate due sfide critiche: 1) la deriva semantica multimodale, in cui un oggetto sonoro viene etichettato come sfondo in task sequenziali; 2) la confusione da co-occorrenza, per cui classi che co-occorrono frequentemente tendono a essere confuse. In questo lavoro, viene progettato un framework di Rehearsal Multimodale basato su Collisione (CMR) per affrontare queste sfide. Nello specifico, per la deriva semantica multimodale, viene proposta una strategia di Selezione Campioni Multimodale (MSS) per selezionare campioni con elevata consistenza modale per il rehearsal. Nel frattempo, per la confusione da co-occorrenza, è stato progettato un meccanismo di Rehearsal Campioni basato su Collisione (CSR), che consente di aumentare la frequenza dei campioni di rehearsal di quelle classi confondibili durante il processo di addestramento. Inoltre, abbiamo costruito tre scenari incrementali audio-visivi per verificare l'efficacia del nostro metodo. Esperimenti completi dimostrano che il nostro metodo supera significativamente i metodi di apprendimento continuo unimodale.
English
Recently, significant progress has been made in multi-modal continual learning, aiming to learn new tasks sequentially in multi-modal settings while preserving performance on previously learned ones. However, existing methods mainly focus on coarse-grained tasks, with limitations in addressing modality entanglement in fine-grained continual learning settings. To bridge this gap, we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to continuously segment new classes guided by audio. Through comprehensive analysis, two critical challenges are identified: 1) multi-modal semantic drift, where a sounding objects is labeled as background in sequential tasks; 2) co-occurrence confusion, where frequent co-occurring classes tend to be confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework is designed to address these challenges. Specifically, for multi-modal semantic drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select samples with high modal consistency for rehearsal. Meanwhile, for co-occurence confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed, allowing for the increase of rehearsal sample frequency of those confusable classes during training process. Moreover, we construct three audio-visual incremental scenarios to verify effectiveness of our method. Comprehensive experiments demonstrate that our method significantly outperforms single-modal continual learning methods.
PDF41December 17, 2025