SE-DiCoW: 자가 등록 화자 분할 조건부 Whisper
SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper
January 27, 2026
저자: Alexander Polok, Dominik Klement, Samuele Cornell, Matthew Wiesner, Jan Černocký, Sanjeev Khudanpur, Lukáš Burget
cs.AI
초록
다중 화자 환경에서 화자 귀속 자동 음성 인식(ASR)은 여전히 주요 과제로 남아 있습니다. 특정 도메인에 대해 미세 조정 시 일부 접근법이 강력한 성능을 달성하지만, 도메인 외 데이터셋에서 잘 일반화되는 시스템은 거의 없습니다. 우리의 기존 연구인 Diarization-Conditioned Whisper(DiCoW)는 화자 분할 결과를 조건 정보로 활용하며, 최소한의 미세 조정으로도 강력한 다국어 및 다중 도메인 성능을 입증했습니다. 본 논문에서는 DiCoW의 주요 한계점, 즉 두 명 이상의 화자가 완전히 중첩되어 전사 내용이 다름에도 불구하고 거의 동일한 조건 정보를 갖게 되는 Silence-Target-Non-target-Overlap(STNO) 마스크의 모호성을 해결합니다. 우리는 화자 분할 결과를 활용하여 대상 화자가 가장 활발히 활동하는 대화 세그먼트를 등록 구간으로 지정하는 SE-DiCoW(Self-Enrolled Diarization-Conditioned Whisper)를 소개합니다. 이 등록 구간은 각 인코더 레이어에서 교차 주의력을 통해 고정 조건 정보로 사용됩니다. 또한 개선된 데이터 분할, 모델 초기화 및 증강 기법을 통해 DiCoW를 더욱 정제합니다. 이러한 발전을 종합하여 SE-DiCoW는 EMMA MT-ASR 벤치마크에서 기존 DiCoW 대비 매크로 평균 tcpWER을 52.4% 상대적으로 크게 개선했습니다.
English
Speaker-attributed automatic speech recognition (ASR) in multi-speaker environments remains a major challenge. While some approaches achieve strong performance when fine-tuned on specific domains, few systems generalize well across out-of-domain datasets. Our prior work, Diarization-Conditioned Whisper (DiCoW), leverages speaker diarization outputs as conditioning information and, with minimal fine-tuning, demonstrated strong multilingual and multi-domain performance. In this paper, we address a key limitation of DiCoW: ambiguity in Silence-Target-Non-target-Overlap (STNO) masks, where two or more fully overlapping speakers may have nearly identical conditioning despite differing transcriptions. We introduce SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), which uses diarization output to locate an enrollment segment anywhere in the conversation where the target speaker is most active. This enrollment segment is used as fixed conditioning via cross-attention at each encoder layer. We further refine DiCoW with improved data segmentation, model initialization, and augmentation. Together, these advances yield substantial gains: SE-DiCoW reduces macro-averaged tcpWER by 52.4% relative to the original DiCoW on the EMMA MT-ASR benchmark.