ChatPaper.aiChatPaper

Système BUT pour le Défi MLC-SLM

BUT System for the MLC-SLM Challenge

June 16, 2025
Auteurs: Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
cs.AI

Résumé

Nous présentons un système de reconnaissance automatique de la parole (ASR) à deux locuteurs qui combine DiCoW -- une variante de Whisper conditionnée par la diarisation -- avec DiariZen, un pipeline de diarisation construit sur Pyannote. Nous évaluons d'abord les deux systèmes dans des scénarios multilingues hors domaine (OOD) sans aucun ajustement fin. Dans ce contexte, DiariZen surpasse systématiquement le modèle de diarisation Pyannote de référence, démontrant une forte capacité de généralisation. Bien que DiCoW ait été ajusté uniquement sur des données anglaises pour l'ASR ciblée par locuteur, il conserve une performance multilingue solide, indiquant que les modifications de l'encodeur préservent les capacités multilingues de Whisper. Nous ajustons ensuite finement DiCoW et DiariZen sur les données du défi MLC-SLM. DiariZen ajusté continue de surpasser la référence Pyannote ajustée, tandis que DiCoW bénéficie d'améliorations supplémentaires grâce à l'adaptation au domaine. Notre système final atteint un tcpWER/CER micro-moyen de 16,75 % et se classe deuxième dans la Tâche 2 du défi MLC-SLM. Enfin, nous identifions plusieurs incohérences d'étiquetage dans les données d'entraînement -- telles que des segments de parole manquants et des annotations de silence incorrectes -- qui peuvent entraver l'ajustement fin de la diarisation. Nous proposons des stratégies simples d'atténuation pour résoudre ces problèmes et améliorer la robustesse du système.
English
We present a two-speaker automatic speech recognition (ASR) system that combines DiCoW -- a diarization-conditioned variant of Whisper -- with DiariZen, a diarization pipeline built on top of Pyannote. We first evaluate both systems in out-of-domain (OOD) multilingual scenarios without any fine-tuning. In this scenario, DiariZen consistently outperforms the baseline Pyannote diarization model, demonstrating strong generalization. Despite being fine-tuned on English-only data for target-speaker ASR, DiCoW retains solid multilingual performance, indicating that encoder modifications preserve Whisper's multilingual capabilities. We then fine-tune both DiCoW and DiariZen on the MLC-SLM challenge data. The fine-tuned DiariZen continues to outperform the fine-tuned Pyannote baseline, while DiCoW sees further gains from domain adaptation. Our final system achieves a micro-average tcpWER/CER of 16.75% and ranks second in Task 2 of the MLC-SLM challenge. Lastly, we identify several labeling inconsistencies in the training data -- such as missing speech segments and incorrect silence annotations -- which can hinder diarization fine-tuning. We propose simple mitigation strategies to address these issues and improve system robustness.
PDF144June 19, 2025