FAMA : Le premier modèle de fondation de la parole à grande échelle en open science pour l'anglais et l'italien
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
May 28, 2025
Auteurs: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Résumé
Le développement de modèles de base pour la parole (SFMs) tels que Whisper et SeamlessM4T a considérablement fait progresser le domaine du traitement de la parole. Cependant, leur nature fermée—avec des données d’entraînement et des codes inaccessibles—pose des défis majeurs en termes de reproductibilité et d’évaluation équitable. Alors que d’autres domaines ont réalisé des progrès substantiels vers la science ouverte en développant des modèles entièrement transparents entraînés sur des codes et des données open source (OS), des efforts similaires dans le domaine de la parole restent limités. Pour combler cette lacune, nous présentons FAMA, la première famille de SFMs en science ouverte pour l’anglais et l’italien, entraînée sur plus de 150 000 heures de données vocales OS. De plus, nous introduisons un nouveau jeu de données contenant 16 000 heures de parole nettoyée et pseudo-étiquetée pour les deux langues. Les résultats montrent que FAMA atteint des performances compétitives par rapport aux SFMs existants tout en étant jusqu’à 8 fois plus rapide. Tous les artefacts, y compris les codes, les jeux de données et les modèles, sont publiés sous des licences conformes à l’OS, favorisant l’ouverture dans la recherche sur les technologies de la parole.
English
The development of speech foundation models (SFMs) like Whisper and
SeamlessM4T has significantly advanced the field of speech processing. However,
their closed nature--with inaccessible training data and code--poses major
reproducibility and fair evaluation challenges. While other domains have made
substantial progress toward open science by developing fully transparent models
trained on open-source (OS) code and data, similar efforts in speech remain
limited. To fill this gap, we introduce FAMA, the first family of open science
SFMs for English and Italian, trained on 150k+ hours of OS speech data.
Moreover, we present a new dataset containing 16k hours of cleaned and
pseudo-labeled speech for both languages. Results show that FAMA achieves
competitive performance compared to existing SFMs while being up to 8 times
faster. All artifacts, including code, datasets, and models, are released under
OS-compliant licenses, promoting openness in speech technology research.Summary
AI-Generated Summary