FAMA: 英語とイタリア語のための初の大規模オープンサイエンス音声基盤モデル
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
May 28, 2025
著者: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
要旨
WhisperやSeamlessM4Tのような音声基盤モデル(SFM)の開発は、音声処理分野を大きく前進させた。しかし、これらのモデルは閉鎖的であり、学習データやコードがアクセス不可能であるため、再現性や公平な評価において重大な課題を抱えている。他の分野では、オープンソース(OS)のコードとデータを用いて完全に透明なモデルを開発することで、オープンサイエンスに向けた大幅な進展を遂げているが、音声分野における同様の取り組みは限られている。このギャップを埋めるため、我々はFAMAを紹介する。FAMAは、英語とイタリア語向けの最初のオープンサイエンスSFMファミリーであり、150,000時間以上のOS音声データを用いて学習されている。さらに、両言語において16,000時間のクリーニングおよび疑似ラベル付き音声を含む新しいデータセットを提示する。結果は、FAMAが既存のSFMと比較して競争力のある性能を達成し、最大8倍の高速化を実現していることを示している。コード、データセット、モデルを含むすべての成果物は、OS準拠のライセンスの下で公開され、音声技術研究におけるオープン性を促進する。
English
The development of speech foundation models (SFMs) like Whisper and
SeamlessM4T has significantly advanced the field of speech processing. However,
their closed nature--with inaccessible training data and code--poses major
reproducibility and fair evaluation challenges. While other domains have made
substantial progress toward open science by developing fully transparent models
trained on open-source (OS) code and data, similar efforts in speech remain
limited. To fill this gap, we introduce FAMA, the first family of open science
SFMs for English and Italian, trained on 150k+ hours of OS speech data.
Moreover, we present a new dataset containing 16k hours of cleaned and
pseudo-labeled speech for both languages. Results show that FAMA achieves
competitive performance compared to existing SFMs while being up to 8 times
faster. All artifacts, including code, datasets, and models, are released under
OS-compliant licenses, promoting openness in speech technology research.Summary
AI-Generated Summary