SE-DiCoW: 自己登録型ダイアリゼーション条件付きWhisper
SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper
January 27, 2026
著者: Alexander Polok, Dominik Klement, Samuele Cornell, Matthew Wiesner, Jan Černocký, Sanjeev Khudanpur, Lukáš Burget
cs.AI
要旨
マルチスピーカー環境における話者属性付き自動音声認識(ASR)は、依然として大きな課題である。特定ドメインでファインチューニングした場合に高い性能を発揮する手法は存在するが、ドメイン外データセットに対して良好な汎化性能を示すシステムはほとんどない。我々の以前の研究であるDiarization-Conditioned Whisper(DiCoW)は、話者ダイアリゼーション出力を条件付け情報として活用し、最小限のファインチューニングで多言語・多ドメインにわたる強力な性能を実証した。本論文では、DiCoWの主要な限界であるSilence-Target-Non-target-Overlap(STNO)マスクの曖昧性に着目する。このマスクでは、2人以上の話者が完全に重なっている場合、転写内容が異なっていてもほぼ同一の条件付けが行われる可能性がある。我々は、SE-DiCoW(Self-Enrolled Diarization-Conditioned Whisper)を提案する。これは、ダイアリゼーション出力を用いて、対象話者が最も活発に発話している会話内の任意の箇所に登録セグメントを特定する。この登録セグメントは、各エンコーダ層におけるクロスアテンションを介した固定条件付けとして利用される。さらに、改良されたデータセグメンテーション、モデル初期化、およびデータ拡張によりDiCoWを改良した。これらの進歩を統合することで大幅な性能向上が達成され、EMMA MT-ASRベンチマークにおいて、SE-DiCoWは元のDiCoWと比較してマクロ平均tcpWERを52.4%相対削減した。
English
Speaker-attributed automatic speech recognition (ASR) in multi-speaker environments remains a major challenge. While some approaches achieve strong performance when fine-tuned on specific domains, few systems generalize well across out-of-domain datasets. Our prior work, Diarization-Conditioned Whisper (DiCoW), leverages speaker diarization outputs as conditioning information and, with minimal fine-tuning, demonstrated strong multilingual and multi-domain performance. In this paper, we address a key limitation of DiCoW: ambiguity in Silence-Target-Non-target-Overlap (STNO) masks, where two or more fully overlapping speakers may have nearly identical conditioning despite differing transcriptions. We introduce SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), which uses diarization output to locate an enrollment segment anywhere in the conversation where the target speaker is most active. This enrollment segment is used as fixed conditioning via cross-attention at each encoder layer. We further refine DiCoW with improved data segmentation, model initialization, and augmentation. Together, these advances yield substantial gains: SE-DiCoW reduces macro-averaged tcpWER by 52.4% relative to the original DiCoW on the EMMA MT-ASR benchmark.