Vers un apprentissage robuste des représentations vocales pour des milliers de langues
Towards Robust Speech Representation Learning for Thousands of Languages
June 30, 2024
Auteurs: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI
Résumé
L'apprentissage auto-supervisé (SSL) a permis d'étendre les technologies de traitement de la parole à un plus grand nombre de langues en réduisant le besoin de données annotées. Cependant, les modèles sont encore loin de prendre en charge les 7000+ langues parlées dans le monde. Nous proposons XEUS, un encodeur multilingue universel pour la parole, entraîné sur plus d'un million d'heures de données couvrant 4057 langues, quadruplant ainsi la couverture linguistique des modèles SSL. Nous combinons un million d'heures de parole issues de corpus publics existants avec un nouveau corpus de plus de 7400 heures couvrant 4057 langues, qui sera rendu public. Pour gérer la diversité des conditions des données de parole multilingues, nous enrichissons l'approche SSL classique de prédiction masquée avec un nouvel objectif de déréverbération, augmentant ainsi la robustesse. Nous évaluons XEUS sur plusieurs benchmarks et montrons qu'il surpasse ou atteint des résultats comparables aux modèles SSL de pointe (SOTA) pour une variété de tâches. XEUS établit un nouveau SOTA sur le benchmark ML-SUPERB : il surpasse MMS 1B et w2v-BERT 2.0 v2 respectivement de 0,8 % et 4,4 %, malgré un nombre de paramètres ou de données de pré-entraînement moindre. Les checkpoints, le code et les données sont disponibles sur https://www.wavlab.org/activities/2024/xeus/.
English
Self-supervised learning (SSL) has helped extend speech technologies to more
languages by reducing the need for labeled data. However, models are still far
from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual
Encoder for Universal Speech, trained on over 1 million hours of data across
4057 languages, extending the language coverage of SSL models 4-fold. We
combine 1 million hours of speech from existing publicly accessible corpora
with a newly created corpus of 7400+ hours from 4057 languages, which will be
publicly released. To handle the diverse conditions of multilingual speech
data, we augment the typical SSL masked prediction approach with a novel
dereverberation objective, increasing robustness. We evaluate XEUS on several
benchmarks, and show that it consistently outperforms or achieves comparable
results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS
sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT
2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or
pre-training data. Checkpoints, code, and data are found in
https://www.wavlab.org/activities/2024/xeus/.Summary
AI-Generated Summary