ChatPaper.aiChatPaper

FAMA: Первая крупномасштабная открытая речевая фундаментальная модель для английского и итальянского языков

FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian

May 28, 2025
Авторы: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI

Аннотация

Разработка базовых моделей обработки речи (Speech Foundation Models, SFMs), таких как Whisper и SeamlessM4T, значительно продвинула область обработки речи. Однако их закрытый характер — с недоступными обучающими данными и кодом — создает серьезные проблемы для воспроизводимости и объективной оценки. В то время как в других областях был достигнут существенный прогресс в направлении открытой науки благодаря созданию полностью прозрачных моделей, обученных на открытом исходном коде (Open Source, OS) и данных, аналогичные усилия в области обработки речи остаются ограниченными. Чтобы восполнить этот пробел, мы представляем FAMA — первое семейство SFM для открытой науки, поддерживающее английский и итальянский языки и обученное на более чем 150 тысячах часов открытых речевых данных. Кроме того, мы представляем новый набор данных, содержащий 16 тысяч часов очищенной и псевдоразмеченной речи для обоих языков. Результаты показывают, что FAMA демонстрирует конкурентоспособную производительность по сравнению с существующими SFM, при этом работая до 8 раз быстрее. Все артефакты, включая код, наборы данных и модели, выпущены под лицензиями, соответствующими принципам открытого исходного кода, что способствует открытости в исследованиях речевых технологий.
English
The development of speech foundation models (SFMs) like Whisper and SeamlessM4T has significantly advanced the field of speech processing. However, their closed nature--with inaccessible training data and code--poses major reproducibility and fair evaluation challenges. While other domains have made substantial progress toward open science by developing fully transparent models trained on open-source (OS) code and data, similar efforts in speech remain limited. To fill this gap, we introduce FAMA, the first family of open science SFMs for English and Italian, trained on 150k+ hours of OS speech data. Moreover, we present a new dataset containing 16k hours of cleaned and pseudo-labeled speech for both languages. Results show that FAMA achieves competitive performance compared to existing SFMs while being up to 8 times faster. All artifacts, including code, datasets, and models, are released under OS-compliant licenses, promoting openness in speech technology research.

Summary

AI-Generated Summary

PDF202May 30, 2025