ChatPaper.aiChatPaper

Domando el Entrelazamiento Modal en la Segmentación Audio-Visual Continua

Taming Modality Entanglement in Continual Audio-Visual Segmentation

October 20, 2025
Autores: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI

Resumen

Recientemente, se han logrado avances significativos en el aprendizaje continuo multimodal, cuyo objetivo es aprender nuevas tareas de forma secuencial en entornos multimodales preservando el rendimiento en las tareas aprendidas previamente. Sin embargo, los métodos existentes se centran principalmente en tareas de grano grueso, con limitaciones para abordar el entrelazamiento de modalidades en entornos de aprendizaje continuo de grano fino. Para cubrir esta laguna, presentamos una nueva tarea de Segmentación Audio-Visual Continua (CAVS), que tiene como objetivo segmentar continuamente nuevas clases guiada por el audio. Mediante un análisis exhaustivo, se identifican dos desafíos críticos: 1) la deriva semántica multimodal, donde un objeto sonoro se etiqueta como fondo en tareas secuenciales; 2) la confusión por co-ocurrencia, donde las clases que co-ocurren frecuentemente tienden a confundirse. En este trabajo, se diseña un marco de trabajo de Repaso Multimodal Basado en Colisión (CMR) para abordar estos desafíos. Específicamente, para la deriva semántica multimodal, se propone una estrategia de Selección de Muestras Multimodal (MSS) para seleccionar muestras con alta consistencia modal para el repaso. Mientras tanto, para la confusión por co-ocurrencia, se diseña un mecanismo de Repaso de Muestras Basado en Colisión (CSR), que permite aumentar la frecuencia de muestras de repaso de aquellas clases confundibles durante el proceso de entrenamiento. Además, construimos tres escenarios incrementales audio-visuales para verificar la efectividad de nuestro método. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los métodos de aprendizaje continuo unimodal.
English
Recently, significant progress has been made in multi-modal continual learning, aiming to learn new tasks sequentially in multi-modal settings while preserving performance on previously learned ones. However, existing methods mainly focus on coarse-grained tasks, with limitations in addressing modality entanglement in fine-grained continual learning settings. To bridge this gap, we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to continuously segment new classes guided by audio. Through comprehensive analysis, two critical challenges are identified: 1) multi-modal semantic drift, where a sounding objects is labeled as background in sequential tasks; 2) co-occurrence confusion, where frequent co-occurring classes tend to be confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework is designed to address these challenges. Specifically, for multi-modal semantic drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select samples with high modal consistency for rehearsal. Meanwhile, for co-occurence confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed, allowing for the increase of rehearsal sample frequency of those confusable classes during training process. Moreover, we construct three audio-visual incremental scenarios to verify effectiveness of our method. Comprehensive experiments demonstrate that our method significantly outperforms single-modal continual learning methods.
PDF41December 17, 2025