SE-DiCoW : Whisper conditionné par la diarisation auto-enregistrée

Résumé

La reconnaissance automatique de la parole attribuée au locuteur (ASR) dans les environnements multi-locuteurs reste un défi majeur. Bien que certaines approches obtiennent de bonnes performances après un affinage sur des domaines spécifiques, peu de systèmes généralisent bien sur des ensembles de données hors domaine. Notre travail précédent, Diarization-Conditioned Whisper (DiCoW), exploite les sorties de la diarisation du locuteur comme information de conditionnement et, avec un affinage minimal, a démontré de solides performances multilingues et multi-domaines. Dans cet article, nous abordons une limitation clé de DiCoW : l'ambiguïté dans les masques Silence-Cible-Non-cible-Chevauchenent (STNO), où deux locuteurs ou plus se chevauchant entièrement peuvent avoir un conditionnement presque identique malgré des transcriptions différentes. Nous présentons SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), qui utilise la sortie de diarisation pour localiser un segment d'enrôlement n'importe où dans la conversation où le locuteur cible est le plus actif. Ce segment d'enrôlement est utilisé comme conditionnement fixe via une attention croisée à chaque couche de l'encodeur. Nous affinons en outre DiCoW avec une meilleure segmentation des données, une initialisation améliorée du modèle et de l'augmentation. Ensemble, ces avancées permettent des gains substantiels : SE-DiCoW réduit le tcpWER moyenné macro de 52,4 % par rapport au DiCoW original sur le benchmark EMMA MT-ASR.

English

Speaker-attributed automatic speech recognition (ASR) in multi-speaker environments remains a major challenge. While some approaches achieve strong performance when fine-tuned on specific domains, few systems generalize well across out-of-domain datasets. Our prior work, Diarization-Conditioned Whisper (DiCoW), leverages speaker diarization outputs as conditioning information and, with minimal fine-tuning, demonstrated strong multilingual and multi-domain performance. In this paper, we address a key limitation of DiCoW: ambiguity in Silence-Target-Non-target-Overlap (STNO) masks, where two or more fully overlapping speakers may have nearly identical conditioning despite differing transcriptions. We introduce SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), which uses diarization output to locate an enrollment segment anywhere in the conversation where the target speaker is most active. This enrollment segment is used as fixed conditioning via cross-attention at each encoder layer. We further refine DiCoW with improved data segmentation, model initialization, and augmentation. Together, these advances yield substantial gains: SE-DiCoW reduces macro-averaged tcpWER by 52.4% relative to the original DiCoW on the EMMA MT-ASR benchmark.

SE-DiCoW : Whisper conditionné par la diarisation auto-enregistrée

SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

Résumé

Support