Bändigung der Modalitätsverschränkung in der kontinuierlichen audiovisuellen Segmentierung
Taming Modality Entanglement in Continual Audio-Visual Segmentation
October 20, 2025
papers.authors: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI
papers.abstract
In jüngster Zeit wurden bedeutende Fortschritte im multimodalen kontinuierlichen Lernen erzielt, mit dem Ziel, neue Aufgaben sequenziell in multimodalen Umgebungen zu lernen und gleichzeitig die Leistung bei bereits gelernten Aufgaben zu erhalten. Bestehende Methoden konzentrieren sich jedoch hauptsächlich auf grobgranulare Aufgaben und weisen Einschränkungen bei der Bewältigung von Modalitätsverschränkung in feingranularen Settings für kontinuierliches Lernen auf. Um diese Lücke zu schließen, führen wir eine neuartige Aufgabe zur Kontinuierlichen Audio-Visuellen Segmentierung (CAVS) ein, die darauf abzielt, kontinuierlich neue Klassen anhand von Audio-Anleitung zu segmentieren. Durch umfassende Analyse wurden zwei kritische Herausforderungen identifiziert: 1) multimodale semantische Drift, bei der ein klingendes Objekt in sequenziellen Aufgaben als Hintergrund klassifiziert wird; 2) Ko-Okkurrenz-Verwirrung, bei der häufig gemeinsam auftretende Klassen tendenziell verwechselt werden. In dieser Arbeit wird ein kollisionsbasiertes multimodales Rehearsal (CMR)-Framework entwickelt, um diesen Herausforderungen zu begegnen. Speziell für die multimodale semantische Drift wird eine Multimodale Probenauswahl (MSS)-Strategie vorgeschlagen, um Proben mit hoher Modalitätskonsistenz für das Rehearsal auszuwählen. Für die Ko-Okkurrenz-Verwirrung wird hingegen ein kollisionsbasiertes Proben-Rehearsal (CSR)-Mechanismus entworfen, der eine Erhöhung der Rehearsal-Häufigkeit von verwirrbaren Klassen während des Trainingsprozesses ermöglicht. Darüber hinaus konstruieren wir drei audio-visuelle inkrementelle Szenarien, um die Wirksamkeit unserer Methode zu überprüfen. Umfassende Experimente belegen, dass unsere Methode Methoden zum kontinuierlichen Lernen mit einzelnen Modalitäten signifikant übertrifft.
English
Recently, significant progress has been made in multi-modal continual
learning, aiming to learn new tasks sequentially in multi-modal settings while
preserving performance on previously learned ones. However, existing methods
mainly focus on coarse-grained tasks, with limitations in addressing modality
entanglement in fine-grained continual learning settings. To bridge this gap,
we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to
continuously segment new classes guided by audio. Through comprehensive
analysis, two critical challenges are identified: 1) multi-modal semantic
drift, where a sounding objects is labeled as background in sequential tasks;
2) co-occurrence confusion, where frequent co-occurring classes tend to be
confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework
is designed to address these challenges. Specifically, for multi-modal semantic
drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select
samples with high modal consistency for rehearsal. Meanwhile, for co-occurence
confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed,
allowing for the increase of rehearsal sample frequency of those confusable
classes during training process. Moreover, we construct three audio-visual
incremental scenarios to verify effectiveness of our method. Comprehensive
experiments demonstrate that our method significantly outperforms single-modal
continual learning methods.