Système BUT pour le Défi MLC-SLM
BUT System for the MLC-SLM Challenge
June 16, 2025
Auteurs: Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
cs.AI
Résumé
Nous présentons un système de reconnaissance automatique de la parole (ASR) à deux locuteurs qui combine DiCoW -- une variante de Whisper conditionnée par la diarisation -- avec DiariZen, un pipeline de diarisation construit sur Pyannote. Nous évaluons d'abord les deux systèmes dans des scénarios multilingues hors domaine (OOD) sans aucun ajustement fin. Dans ce contexte, DiariZen surpasse systématiquement le modèle de diarisation Pyannote de référence, démontrant une forte capacité de généralisation. Bien que DiCoW ait été ajusté uniquement sur des données anglaises pour l'ASR ciblée par locuteur, il conserve une performance multilingue solide, indiquant que les modifications de l'encodeur préservent les capacités multilingues de Whisper. Nous ajustons ensuite finement DiCoW et DiariZen sur les données du défi MLC-SLM. DiariZen ajusté continue de surpasser la référence Pyannote ajustée, tandis que DiCoW bénéficie d'améliorations supplémentaires grâce à l'adaptation au domaine. Notre système final atteint un tcpWER/CER micro-moyen de 16,75 % et se classe deuxième dans la Tâche 2 du défi MLC-SLM. Enfin, nous identifions plusieurs incohérences d'étiquetage dans les données d'entraînement -- telles que des segments de parole manquants et des annotations de silence incorrectes -- qui peuvent entraver l'ajustement fin de la diarisation. Nous proposons des stratégies simples d'atténuation pour résoudre ces problèmes et améliorer la robustesse du système.
English
We present a two-speaker automatic speech recognition (ASR) system that
combines DiCoW -- a diarization-conditioned variant of Whisper -- with
DiariZen, a diarization pipeline built on top of Pyannote. We first evaluate
both systems in out-of-domain (OOD) multilingual scenarios without any
fine-tuning. In this scenario, DiariZen consistently outperforms the baseline
Pyannote diarization model, demonstrating strong generalization. Despite being
fine-tuned on English-only data for target-speaker ASR, DiCoW retains solid
multilingual performance, indicating that encoder modifications preserve
Whisper's multilingual capabilities. We then fine-tune both DiCoW and DiariZen
on the MLC-SLM challenge data. The fine-tuned DiariZen continues to outperform
the fine-tuned Pyannote baseline, while DiCoW sees further gains from domain
adaptation. Our final system achieves a micro-average tcpWER/CER of 16.75% and
ranks second in Task 2 of the MLC-SLM challenge. Lastly, we identify several
labeling inconsistencies in the training data -- such as missing speech
segments and incorrect silence annotations -- which can hinder diarization
fine-tuning. We propose simple mitigation strategies to address these issues
and improve system robustness.