ChatPaper.aiChatPaper

Система BUT для задачи MLC-SLM

BUT System for the MLC-SLM Challenge

June 16, 2025
Авторы: Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
cs.AI

Аннотация

Мы представляем систему автоматического распознавания речи (ASR) для двух говорящих, которая объединяет DiCoW — диаризационно-условный вариант модели Whisper — с DiariZen, диаризационным конвейером, построенным на основе Pyannote. Сначала мы оцениваем обе системы в сценариях вне домена (OOD) для многоязычных данных без какого-либо тонкого настраивания. В этом сценарии DiariZen стабильно превосходит базовую модель диаризации Pyannote, демонстрируя сильную способность к обобщению. Несмотря на то, что DiCoW была тонко настроена только на англоязычных данных для ASR целевого говорящего, она сохраняет устойчивую многоязычную производительность, что указывает на сохранение мультиязычных возможностей Whisper благодаря модификациям энкодера. Затем мы тонко настраиваем как DiCoW, так и DiariZen на данных задачи MLC-SLM. Тонко настроенный DiariZen продолжает превосходить тонко настроенный базовый вариант Pyannote, в то время как DiCoW получает дополнительные преимущества от адаптации к домену. Наша финальная система достигает микро-среднего значения tcpWER/CER в 16,75% и занимает второе место в Задаче 2 конкурса MLC-SLM. Наконец, мы выявляем несколько несоответствий в разметке обучающих данных — таких как пропущенные сегменты речи и некорректные аннотации тишины — которые могут препятствовать тонкой настройке диаризации. Мы предлагаем простые стратегии для устранения этих проблем и повышения устойчивости системы.
English
We present a two-speaker automatic speech recognition (ASR) system that combines DiCoW -- a diarization-conditioned variant of Whisper -- with DiariZen, a diarization pipeline built on top of Pyannote. We first evaluate both systems in out-of-domain (OOD) multilingual scenarios without any fine-tuning. In this scenario, DiariZen consistently outperforms the baseline Pyannote diarization model, demonstrating strong generalization. Despite being fine-tuned on English-only data for target-speaker ASR, DiCoW retains solid multilingual performance, indicating that encoder modifications preserve Whisper's multilingual capabilities. We then fine-tune both DiCoW and DiariZen on the MLC-SLM challenge data. The fine-tuned DiariZen continues to outperform the fine-tuned Pyannote baseline, while DiCoW sees further gains from domain adaptation. Our final system achieves a micro-average tcpWER/CER of 16.75% and ranks second in Task 2 of the MLC-SLM challenge. Lastly, we identify several labeling inconsistencies in the training data -- such as missing speech segments and incorrect silence annotations -- which can hinder diarization fine-tuning. We propose simple mitigation strategies to address these issues and improve system robustness.
PDF144June 19, 2025