FAMA: Il primo modello di fondazione per il parlato su larga scala open-science per l'inglese e l'italiano
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
May 28, 2025
Autori: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Abstract
Lo sviluppo di modelli di base per l'elaborazione del parlato (SFM) come Whisper e SeamlessM4T ha significativamente avanzato il campo dell'elaborazione del parlato. Tuttavia, la loro natura chiusa—con dati e codice di addestramento inaccessibili—pone importanti sfide in termini di riproducibilità e valutazione equa. Mentre altri domini hanno compiuto progressi sostanziali verso la scienza aperta sviluppando modelli completamente trasparenti addestrati su codice e dati open-source (OS), sforzi simili nel campo del parlato rimangono limitati. Per colmare questa lacuna, introduciamo FAMA, la prima famiglia di SFM per la scienza aperta per l'inglese e l'italiano, addestrata su oltre 150.000 ore di dati vocali OS. Inoltre, presentiamo un nuovo dataset contenente 16.000 ore di parlato pulito e pseudo-etichettato per entrambe le lingue. I risultati mostrano che FAMA raggiunge prestazioni competitive rispetto agli SFM esistenti, essendo fino a 8 volte più veloce. Tutti gli artefatti, inclusi codice, dataset e modelli, sono rilasciati con licenze conformi all'OS, promuovendo l'apertura nella ricerca sulle tecnologie vocali.
English
The development of speech foundation models (SFMs) like Whisper and
SeamlessM4T has significantly advanced the field of speech processing. However,
their closed nature--with inaccessible training data and code--poses major
reproducibility and fair evaluation challenges. While other domains have made
substantial progress toward open science by developing fully transparent models
trained on open-source (OS) code and data, similar efforts in speech remain
limited. To fill this gap, we introduce FAMA, the first family of open science
SFMs for English and Italian, trained on 150k+ hours of OS speech data.
Moreover, we present a new dataset containing 16k hours of cleaned and
pseudo-labeled speech for both languages. Results show that FAMA achieves
competitive performance compared to existing SFMs while being up to 8 times
faster. All artifacts, including code, datasets, and models, are released under
OS-compliant licenses, promoting openness in speech technology research.