Maîtriser l'enchevêtrement modal dans la segmentation audio-visuelle continue
Taming Modality Entanglement in Continual Audio-Visual Segmentation
October 20, 2025
papers.authors: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI
papers.abstract
Récemment, des progrès significatifs ont été réalisés dans l'apprentissage continu multimodal, visant à apprendre séquentiellement de nouvelles tâches dans des configurations multimodales tout en préservant les performances sur les tâches précédemment apprises. Cependant, les méthodes existantes se concentrent principalement sur des tâches à granularité grossière et présentent des limitations pour traiter l'enchevêtrement des modalités dans des contextes d'apprentissage continu à granularité fine. Pour combler cette lacune, nous introduisons une nouvelle tâche de Segmentation Audio-Visuelle Continue (CAVS), visant à segmenter continuellement de nouvelles classes guidées par l'audio. Une analyse approfondie a permis d'identifier deux défis critiques : 1) la dérive sémantique multimodale, où un objet sonore est étiqueté comme arrière-plan dans des tâches séquentielles ; 2) la confusion de co-occurrence, où les classes fréquemment co-occurrentes ont tendance à être confondues. Dans ce travail, un cadre de Répétition Multimodale basée sur les Collisions (CMR) est conçu pour relever ces défis. Spécifiquement, pour la dérive sémantique multimodale, une stratégie de Sélection d'Échantillons Multimodaux (MSS) est proposée pour sélectionner des échantillons présentant une forte cohérence modale pour la répétition. Parallèlement, pour la confusion de co-occurrence, un mécanisme de Répétition d'Échantillons basé sur les Collisions (CSR) est conçu, permettant d'augmenter la fréquence des échantillons de répétition des classes confondables pendant le processus d'entraînement. De plus, nous avons construit trois scénarios incrémentaux audio-visuels pour vérifier l'efficacité de notre méthode. Des expériences complètes démontrent que notre méthode surpasse significativement les méthodes d'apprentissage continu unimodal.
English
Recently, significant progress has been made in multi-modal continual
learning, aiming to learn new tasks sequentially in multi-modal settings while
preserving performance on previously learned ones. However, existing methods
mainly focus on coarse-grained tasks, with limitations in addressing modality
entanglement in fine-grained continual learning settings. To bridge this gap,
we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to
continuously segment new classes guided by audio. Through comprehensive
analysis, two critical challenges are identified: 1) multi-modal semantic
drift, where a sounding objects is labeled as background in sequential tasks;
2) co-occurrence confusion, where frequent co-occurring classes tend to be
confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework
is designed to address these challenges. Specifically, for multi-modal semantic
drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select
samples with high modal consistency for rehearsal. Meanwhile, for co-occurence
confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed,
allowing for the increase of rehearsal sample frequency of those confusable
classes during training process. Moreover, we construct three audio-visual
incremental scenarios to verify effectiveness of our method. Comprehensive
experiments demonstrate that our method significantly outperforms single-modal
continual learning methods.