FAMA: Het eerste grootschalige open-science spraakfundamentmodel voor Engels en Italiaans
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
May 28, 2025
Auteurs: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Samenvatting
De ontwikkeling van spraakfundamentmodellen (SFM's) zoals Whisper en SeamlessM4T heeft het vakgebied van spraakverwerking aanzienlijk vooruitgebracht. Hun gesloten karakter—met ontoegankelijke trainingsdata en code—vormt echter grote uitdagingen voor reproduceerbaarheid en eerlijke evaluatie. Terwijl andere domeinen aanzienlijke vooruitgang hebben geboekt richting open wetenschap door volledig transparante modellen te ontwikkelen die getraind zijn op open-source (OS) code en data, blijven soortgelijke inspanningen op het gebied van spraak beperkt. Om deze leemte te vullen, introduceren we FAMA, de eerste familie van open wetenschap SFM's voor Engels en Italiaans, getraind op meer dan 150.000 uur aan OS-spraakdata. Daarnaast presenteren we een nieuwe dataset met 16.000 uur aan opgeschoonde en pseudo-gelabelde spraak voor beide talen. Resultaten tonen aan dat FAMA competitieve prestaties behaalt in vergelijking met bestaande SFM's, terwijl het tot 8 keer sneller is. Alle artefacten, inclusief code, datasets en modellen, worden vrijgegeven onder OS-conforme licenties, wat openheid in spraaktechnologieonderzoek bevordert.
English
The development of speech foundation models (SFMs) like Whisper and
SeamlessM4T has significantly advanced the field of speech processing. However,
their closed nature--with inaccessible training data and code--poses major
reproducibility and fair evaluation challenges. While other domains have made
substantial progress toward open science by developing fully transparent models
trained on open-source (OS) code and data, similar efforts in speech remain
limited. To fill this gap, we introduce FAMA, the first family of open science
SFMs for English and Italian, trained on 150k+ hours of OS speech data.
Moreover, we present a new dataset containing 16k hours of cleaned and
pseudo-labeled speech for both languages. Results show that FAMA achieves
competitive performance compared to existing SFMs while being up to 8 times
faster. All artifacts, including code, datasets, and models, are released under
OS-compliant licenses, promoting openness in speech technology research.