FAMA: O Primeiro Modelo de Fundamento de Fala em Grande Escala de Ciência Aberta para Inglês e Italiano
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
May 28, 2025
Autores: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Resumo
O desenvolvimento de modelos fundamentais de fala (SFMs, na sigla em inglês), como Whisper e SeamlessM4T, avançou significativamente o campo do processamento de fala. No entanto, sua natureza fechada—com dados e códigos de treinamento inacessíveis—apresenta grandes desafios de reprodutibilidade e avaliação justa. Enquanto outros domínios fizeram progressos substanciais em direção à ciência aberta, desenvolvendo modelos totalmente transparentes treinados com códigos e dados de código aberto (OS, na sigla em inglês), esforços semelhantes no campo da fala ainda são limitados. Para preencher essa lacuna, introduzimos o FAMA, a primeira família de SFMs de ciência aberta para inglês e italiano, treinada com mais de 150 mil horas de dados de fala de código aberto. Além disso, apresentamos um novo conjunto de dados contendo 16 mil horas de fala limpa e pseudo-rotulada para ambos os idiomas. Os resultados mostram que o FAMA alcança desempenho competitivo em comparação com SFMs existentes, sendo até 8 vezes mais rápido. Todos os artefatos, incluindo códigos, conjuntos de dados e modelos, são disponibilizados sob licenças compatíveis com código aberto, promovendo a abertura na pesquisa de tecnologia de fala.
English
The development of speech foundation models (SFMs) like Whisper and
SeamlessM4T has significantly advanced the field of speech processing. However,
their closed nature--with inaccessible training data and code--poses major
reproducibility and fair evaluation challenges. While other domains have made
substantial progress toward open science by developing fully transparent models
trained on open-source (OS) code and data, similar efforts in speech remain
limited. To fill this gap, we introduce FAMA, the first family of open science
SFMs for English and Italian, trained on 150k+ hours of OS speech data.
Moreover, we present a new dataset containing 16k hours of cleaned and
pseudo-labeled speech for both languages. Results show that FAMA achieves
competitive performance compared to existing SFMs while being up to 8 times
faster. All artifacts, including code, datasets, and models, are released under
OS-compliant licenses, promoting openness in speech technology research.