SE-DiCoW: Самоинициализируемая диаризация-кондиционированная Whisper

Аннотация

Автоматическое распознавание речи с атрибуцией говорящего (ASR) в условиях многопользовательской среды остается серьезной проблемой. Хотя некоторые подходы демонстрируют высокую производительность при дообучении на конкретных доменах, лишь немногие системы хорошо обобщаются на данные из других доменов. Наша предыдущая работа, Diarization-Conditioned Whisper (DiCoW), использует выходные данные диаризации речи в качестве кондиционирующей информации и, при минимальном дообучении, показала высокую производительность в многоязычных и многодоменных сценариях. В данной статье мы устраняем ключевое ограничение DiCoW: неоднозначность в масках "Тишина-Цель-Нецель-Перекрытие" (STNO), когда два или более полностью перекрывающихся говорящих могут иметь почти идентичные условия кондиционирования, несмотря на различающиеся транскрипции. Мы представляем SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), который использует выход диаризации для локализации сегмента регистрации в любом месте разговора, где целевой говорящий наиболее активен. Этот сегмент регистрации используется в качестве фиксированного условия посредством кросс-внимания на каждом слое энкодера. Мы дополнительно улучшаем DiCoW за счет усовершенствованной сегментации данных, инициализации модели и аугментации. В совокупности эти усовершенствования приводят к значительному прогрессу: SE-DiCoW снижает макроусредненный tcpWER на 52.4% по сравнению с исходным DiCoW на бенчмарке EMMA MT-ASR.

English

Speaker-attributed automatic speech recognition (ASR) in multi-speaker environments remains a major challenge. While some approaches achieve strong performance when fine-tuned on specific domains, few systems generalize well across out-of-domain datasets. Our prior work, Diarization-Conditioned Whisper (DiCoW), leverages speaker diarization outputs as conditioning information and, with minimal fine-tuning, demonstrated strong multilingual and multi-domain performance. In this paper, we address a key limitation of DiCoW: ambiguity in Silence-Target-Non-target-Overlap (STNO) masks, where two or more fully overlapping speakers may have nearly identical conditioning despite differing transcriptions. We introduce SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), which uses diarization output to locate an enrollment segment anywhere in the conversation where the target speaker is most active. This enrollment segment is used as fixed conditioning via cross-attention at each encoder layer. We further refine DiCoW with improved data segmentation, model initialization, and augmentation. Together, these advances yield substantial gains: SE-DiCoW reduces macro-averaged tcpWER by 52.4% relative to the original DiCoW on the EMMA MT-ASR benchmark.

SE-DiCoW: Самоинициализируемая диаризация-кондиционированная Whisper

SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

Аннотация

Support