SE-DiCoW: Whisper Condicionado à Diarização com Autoinscrição

Resumo

A transcrição automática de fala (ASR) com atribuição de locutor em ambientes com múltiplos falantes continua a ser um grande desafio. Embora algumas abordagens alcancem um desempenho robusto quando ajustadas para domínios específicos, poucos sistemas generalizam bem em conjuntos de dados fora do domínio. O nosso trabalho anterior, Diarization-Conditioned Whisper (DiCoW), aproveita os resultados da diarização de locutores como informação de condicionamento e, com um ajuste mínimo, demonstrou um desempenho multilíngue e multidomínio sólido. Neste artigo, abordamos uma limitação fundamental do DiCoW: a ambiguidade nas máscaras Silêncio-Alvo-Não-Alvo-Sobreposição (STNO), onde dois ou mais locutors totalmente sobrepostos podem ter um condicionamento quase idêntico, apesar de transcrições diferentes. Apresentamos o SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), que utiliza o resultado da diarização para localizar um segmento de inscrição em qualquer parte da conversa onde o locutor-alvo está mais ativo. Este segmento de inscrição é usado como condicionamento fixo através de atenção cruzada em cada camada do codificador. Refinamos ainda mais o DiCoW com uma segmentação de dados melhorada, inicialização do modelo e aumento de dados. Em conjunto, estes avanços produzem ganhos substanciais: o SE-DiCoW reduz o tcpWER (macro-médio) em 52,4% em relação ao DiCoW original no benchmark EMMA MT-ASR.

English

Speaker-attributed automatic speech recognition (ASR) in multi-speaker environments remains a major challenge. While some approaches achieve strong performance when fine-tuned on specific domains, few systems generalize well across out-of-domain datasets. Our prior work, Diarization-Conditioned Whisper (DiCoW), leverages speaker diarization outputs as conditioning information and, with minimal fine-tuning, demonstrated strong multilingual and multi-domain performance. In this paper, we address a key limitation of DiCoW: ambiguity in Silence-Target-Non-target-Overlap (STNO) masks, where two or more fully overlapping speakers may have nearly identical conditioning despite differing transcriptions. We introduce SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), which uses diarization output to locate an enrollment segment anywhere in the conversation where the target speaker is most active. This enrollment segment is used as fixed conditioning via cross-attention at each encoder layer. We further refine DiCoW with improved data segmentation, model initialization, and augmentation. Together, these advances yield substantial gains: SE-DiCoW reduces macro-averaged tcpWER by 52.4% relative to the original DiCoW on the EMMA MT-ASR benchmark.

SE-DiCoW: Whisper Condicionado à Diarização com Autoinscrição

SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

Resumo

Support