Verso un Apprendimento Robusto della Rappresentazione del Parlato per Migliaia di Lingue
Towards Robust Speech Representation Learning for Thousands of Languages
June 30, 2024
Autori: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI
Abstract
L'apprendimento auto-supervisionato (SSL) ha contribuito a estendere le tecnologie vocali a un maggior numero di lingue riducendo la necessità di dati etichettati. Tuttavia, i modelli sono ancora lontani dal supportare le oltre 7000 lingue del mondo. Proponiamo XEUS, un Codificatore Cross-linguale per il Linguaggio Universale (Cross-lingual Encoder for Universal Speech), addestrato su oltre 1 milione di ore di dati in 4057 lingue, estendendo di 4 volte la copertura linguistica dei modelli SSL. Combiniamo 1 milione di ore di parlato provenienti da corpora pubblicamente accessibili con un nuovo corpus creato di oltre 7400 ore in 4057 lingue, che verrà rilasciato pubblicamente. Per gestire le condizioni eterogenee dei dati vocali multilingue, integriamo il tipico approccio SSL di predizione mascherata con un nuovo obiettivo di dereverberazione, aumentando la robustezza. Valutiamo XEUS su diversi benchmark e dimostriamo che supera costantemente o ottiene risultati comparabili ai modelli SSL all'avanguardia (SOTA) in una varietà di task. XEUS stabilisce un nuovo SOTA sul benchmark ML-SUPERB: supera MMS 1B e w2v-BERT 2.0 v2 rispettivamente dello 0,8% e del 4,4%, nonostante abbia meno parametri o dati di pre-addestramento. Checkpoint, codice e dati sono disponibili su https://www.wavlab.org/activities/2024/xeus/.
English
Self-supervised learning (SSL) has helped extend speech technologies to more
languages by reducing the need for labeled data. However, models are still far
from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual
Encoder for Universal Speech, trained on over 1 million hours of data across
4057 languages, extending the language coverage of SSL models 4-fold. We
combine 1 million hours of speech from existing publicly accessible corpora
with a newly created corpus of 7400+ hours from 4057 languages, which will be
publicly released. To handle the diverse conditions of multilingual speech
data, we augment the typical SSL masked prediction approach with a novel
dereverberation objective, increasing robustness. We evaluate XEUS on several
benchmarks, and show that it consistently outperforms or achieves comparable
results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS
sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT
2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or
pre-training data. Checkpoints, code, and data are found in
https://www.wavlab.org/activities/2024/xeus/.