FAMA: Das erste groß angelegte Open-Science-Sprachgrundmodell für Englisch und Italienisch
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
May 28, 2025
Autoren: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Zusammenfassung
Die Entwicklung von Sprachgrundlagenmodellen (Speech Foundation Models, SFMs) wie Whisper und SeamlessM4T hat das Feld der Sprachverarbeitung erheblich vorangebracht. Allerdings stellt deren geschlossene Natur – mit nicht zugänglichen Trainingsdaten und Code – erhebliche Herausforderungen für die Reproduzierbarkeit und faire Bewertung dar. Während andere Domänen durch die Entwicklung vollständig transparenter Modelle, die auf Open-Source (OS)-Code und -Daten trainiert wurden, erhebliche Fortschritte in Richtung Open Science gemacht haben, bleiben ähnliche Bemühungen im Bereich der Sprachverarbeitung begrenzt. Um diese Lücke zu schließen, stellen wir FAMA vor, die erste Familie von Open-Science-SFMs für Englisch und Italienisch, die auf über 150.000 Stunden OS-Sprachdaten trainiert wurde. Darüber hinaus präsentieren wir einen neuen Datensatz, der 16.000 Stunden bereinigter und pseudolabelter Sprachdaten für beide Sprachen enthält. Die Ergebnisse zeigen, dass FAMA eine wettbewerbsfähige Leistung im Vergleich zu bestehenden SFMs erzielt und dabei bis zu 8-mal schneller ist. Alle Artefakte, einschließlich Code, Datensätze und Modelle, werden unter OS-konformen Lizenzen veröffentlicht, um die Offenheit in der Forschung zur Sprachtechnologie zu fördern.
English
The development of speech foundation models (SFMs) like Whisper and
SeamlessM4T has significantly advanced the field of speech processing. However,
their closed nature--with inaccessible training data and code--poses major
reproducibility and fair evaluation challenges. While other domains have made
substantial progress toward open science by developing fully transparent models
trained on open-source (OS) code and data, similar efforts in speech remain
limited. To fill this gap, we introduce FAMA, the first family of open science
SFMs for English and Italian, trained on 150k+ hours of OS speech data.
Moreover, we present a new dataset containing 16k hours of cleaned and
pseudo-labeled speech for both languages. Results show that FAMA achieves
competitive performance compared to existing SFMs while being up to 8 times
faster. All artifacts, including code, datasets, and models, are released under
OS-compliant licenses, promoting openness in speech technology research.Summary
AI-Generated Summary