Укрощение переплетения модальностей в непрерывной аудиовизуальной сегментации
Taming Modality Entanglement in Continual Audio-Visual Segmentation
October 20, 2025
Авторы: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI
Аннотация
В последнее время был достигнут значительный прогресс в области многомодального непрерывного обучения, целью которого является последовательное изучение новых задач в многомодальных условиях при сохранении производительности на ранее изученных. Однако существующие методы в основном сосредоточены на крупнозернистых задачах и имеют ограничения в решении проблемы переплетения модальностей в условиях мелкозернистого непрерывного обучения. Чтобы заполнить этот пробел, мы представляем новую задачу — Непрерывную Аудиовизуальную Сегментацию (CAVS), направленную на непрерывную сегментацию новых классов с использованием аудио-подсказок. В ходе всестороннего анализа выявлены две ключевые проблемы: 1) семантический дрейф многомодальных данных, когда звучащий объект помечается как фон в последовательных задачах; 2) путаница из-за совместного появления, когда часто совместно встречающиеся классы склонны混淆ться. В данной работе разработана Коллизионная Многомодальная Репетиционная (CMR) структура для решения этих проблем. В частности, для борьбы с семантическим дрейфом предложена Стратегия Выбора Многомодальных Образцов (MSS) для отбора образцов с высокой межмодальной согласованностью для репетиции. Одновременно, для устранения путаницы из-за совместного появления разработан Механизм Коллизионной Репетиции Образцов (CSR), позволяющий увеличивать частоту репетиции образцов этих легко混淆емых классов в процессе обучения. Кроме того, мы создали три аудиовизуальных инкрементальных сценария для проверки эффективности нашего метода. Всесторонние эксперименты демонстрируют, что наш метод значительно превосходит методы однмодального непрерывного обучения.
English
Recently, significant progress has been made in multi-modal continual
learning, aiming to learn new tasks sequentially in multi-modal settings while
preserving performance on previously learned ones. However, existing methods
mainly focus on coarse-grained tasks, with limitations in addressing modality
entanglement in fine-grained continual learning settings. To bridge this gap,
we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to
continuously segment new classes guided by audio. Through comprehensive
analysis, two critical challenges are identified: 1) multi-modal semantic
drift, where a sounding objects is labeled as background in sequential tasks;
2) co-occurrence confusion, where frequent co-occurring classes tend to be
confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework
is designed to address these challenges. Specifically, for multi-modal semantic
drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select
samples with high modal consistency for rehearsal. Meanwhile, for co-occurence
confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed,
allowing for the increase of rehearsal sample frequency of those confusable
classes during training process. Moreover, we construct three audio-visual
incremental scenarios to verify effectiveness of our method. Comprehensive
experiments demonstrate that our method significantly outperforms single-modal
continual learning methods.