ChatPaper.aiChatPaper

지속적 오디오-비주얼 분할에서 양태 얽힘 현상 제어

Taming Modality Entanglement in Continual Audio-Visual Segmentation

October 20, 2025
저자: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang
cs.AI

초록

최근 멀티모달 연속 학습 분야에서 상당한 진전이 있었으며, 이는 이전에 학습한 작업의 성능을 유지하면서 멀티모달 환경에서 새로운 작업을 순차적으로 학습하는 것을 목표로 합니다. 그러나 기존 방법론들은 주로 coarse-grained 작업에 집중되어 있으며, fine-grained 연속 학습 환경에서의 모달리티 간섭 문제를 해결하는 데 한계가 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 오디오의 지도를 받아 새로운 클래스를 지속적으로 분할하는 새로운 연속 오디오-비주얼 분할(CAVS) 작업을 소개합니다. 포괄적 분석을 통해 두 가지 주요 과제가 확인되었습니다: 1) 순차 작업에서 소리를 내는 객체가 배경으로 레이블되는 멀티모달 의미론적 드리프트, 2) 빈번하게 동시 발생하는 클래스 간 혼란이 발생하는 공동 발생 혼동. 본 연구에서는 이러한 과제를 해결하기 위해 충돌 기반 멀티모달 재현(CMR) 프레임워크를 설계했습니다. 구체적으로, 멀티모달 의미론적 드리프트에 대해서는 높은 모달 일관성을 가진 샘플을 재현용으로 선별하는 멀티모달 샘플 선택(MSS) 전략을 제안합니다. 동시에 공동 발생 혼동에 대해서는 학습 과정에서 혼동 가능한 클래스들의 재현 샘플 빈도를 증가시킬 수 있는 충돌 기반 샘플 재현(CSR) 메커니즘을 설계했습니다. 또한 본 방법론의 효과성을 검증하기 위해 세 가지 오디오-비주얼 증분 시나리오를 구축했습니다. 포괄적 실험을 통해 본 방법론이 단일 모달 연속 학습 방법론들을 크게 능가함을 입증했습니다.
English
Recently, significant progress has been made in multi-modal continual learning, aiming to learn new tasks sequentially in multi-modal settings while preserving performance on previously learned ones. However, existing methods mainly focus on coarse-grained tasks, with limitations in addressing modality entanglement in fine-grained continual learning settings. To bridge this gap, we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to continuously segment new classes guided by audio. Through comprehensive analysis, two critical challenges are identified: 1) multi-modal semantic drift, where a sounding objects is labeled as background in sequential tasks; 2) co-occurrence confusion, where frequent co-occurring classes tend to be confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework is designed to address these challenges. Specifically, for multi-modal semantic drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select samples with high modal consistency for rehearsal. Meanwhile, for co-occurence confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed, allowing for the increase of rehearsal sample frequency of those confusable classes during training process. Moreover, we construct three audio-visual incremental scenarios to verify effectiveness of our method. Comprehensive experiments demonstrate that our method significantly outperforms single-modal continual learning methods.
PDF41December 17, 2025