ChatPaper.aiChatPaper

Sistema BUT para el Desafío MLC-SLM

BUT System for the MLC-SLM Challenge

June 16, 2025
Autores: Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
cs.AI

Resumen

Presentamos un sistema de reconocimiento automático del habla (ASR) para dos hablantes que combina DiCoW -- una variante de Whisper condicionada por diarización -- con DiariZen, una canalización de diarización construida sobre Pyannote. Primero evaluamos ambos sistemas en escenarios multilingües fuera de dominio (OOD) sin ningún ajuste fino. En este escenario, DiariZen supera consistentemente el modelo de diarización Pyannote de referencia, demostrando una fuerte generalización. A pesar de estar ajustado fino solo con datos en inglés para ASR de hablante objetivo, DiCoW mantiene un sólido rendimiento multilingüe, lo que indica que las modificaciones en el codificador preservan las capacidades multilingües de Whisper. Luego ajustamos fino tanto DiCoW como DiariZen con los datos del desafío MLC-SLM. El DiariZen ajustado fino continúa superando la referencia de Pyannote ajustada, mientras que DiCoW obtiene mejoras adicionales gracias a la adaptación al dominio. Nuestro sistema final alcanza un tcpWER/CER promedio micro de 16.75% y se posiciona en segundo lugar en la Tarea 2 del desafío MLC-SLM. Por último, identificamos varias inconsistencias en el etiquetado de los datos de entrenamiento -- como segmentos de habla faltantes y anotaciones incorrectas de silencio -- que pueden dificultar el ajuste fino de la diarización. Proponemos estrategias simples de mitigación para abordar estos problemas y mejorar la robustez del sistema.
English
We present a two-speaker automatic speech recognition (ASR) system that combines DiCoW -- a diarization-conditioned variant of Whisper -- with DiariZen, a diarization pipeline built on top of Pyannote. We first evaluate both systems in out-of-domain (OOD) multilingual scenarios without any fine-tuning. In this scenario, DiariZen consistently outperforms the baseline Pyannote diarization model, demonstrating strong generalization. Despite being fine-tuned on English-only data for target-speaker ASR, DiCoW retains solid multilingual performance, indicating that encoder modifications preserve Whisper's multilingual capabilities. We then fine-tune both DiCoW and DiariZen on the MLC-SLM challenge data. The fine-tuned DiariZen continues to outperform the fine-tuned Pyannote baseline, while DiCoW sees further gains from domain adaptation. Our final system achieves a micro-average tcpWER/CER of 16.75% and ranks second in Task 2 of the MLC-SLM challenge. Lastly, we identify several labeling inconsistencies in the training data -- such as missing speech segments and incorrect silence annotations -- which can hinder diarization fine-tuning. We propose simple mitigation strategies to address these issues and improve system robustness.
PDF144June 19, 2025