FAMA: El primer modelo de lenguaje fundacional de código abierto a gran escala para inglés e italiano
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
May 28, 2025
Autores: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Resumen
El desarrollo de modelos fundamentales de habla (SFMs, por sus siglas en inglés) como Whisper y SeamlessM4T ha avanzado significativamente el campo del procesamiento del habla. Sin embargo, su naturaleza cerrada—con datos y código de entrenamiento inaccesibles—plantea importantes desafíos de reproducibilidad y evaluación justa. Mientras que otros dominios han logrado un progreso sustancial hacia la ciencia abierta mediante el desarrollo de modelos completamente transparentes entrenados con código y datos de código abierto (OS, por sus siglas en inglés), esfuerzos similares en el ámbito del habla siguen siendo limitados. Para llenar este vacío, presentamos FAMA, la primera familia de SFMs de ciencia abierta para inglés e italiano, entrenada con más de 150 mil horas de datos de habla de código abierto. Además, presentamos un nuevo conjunto de datos que contiene 16 mil horas de habla limpiada y pseudoetiquetada para ambos idiomas. Los resultados muestran que FAMA logra un rendimiento competitivo en comparación con los SFMs existentes, siendo hasta 8 veces más rápido. Todos los artefactos, incluyendo código, conjuntos de datos y modelos, se publican bajo licencias compatibles con OS, promoviendo la apertura en la investigación de tecnología del habla.
English
The development of speech foundation models (SFMs) like Whisper and
SeamlessM4T has significantly advanced the field of speech processing. However,
their closed nature--with inaccessible training data and code--poses major
reproducibility and fair evaluation challenges. While other domains have made
substantial progress toward open science by developing fully transparent models
trained on open-source (OS) code and data, similar efforts in speech remain
limited. To fill this gap, we introduce FAMA, the first family of open science
SFMs for English and Italian, trained on 150k+ hours of OS speech data.
Moreover, we present a new dataset containing 16k hours of cleaned and
pseudo-labeled speech for both languages. Results show that FAMA achieves
competitive performance compared to existing SFMs while being up to 8 times
faster. All artifacts, including code, datasets, and models, are released under
OS-compliant licenses, promoting openness in speech technology research.Summary
AI-Generated Summary