Hacia un Aprendizaje Robusto de Representaciones del Habla para Miles de Idiomas
Towards Robust Speech Representation Learning for Thousands of Languages
June 30, 2024
Autores: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI
Resumen
El aprendizaje autosupervisado (SSL, por sus siglas en inglés) ha contribuido a extender las tecnologías del habla a más idiomas al reducir la necesidad de datos etiquetados. Sin embargo, los modelos aún están lejos de poder soportar los más de 7000 idiomas que existen en el mundo. Proponemos XEUS, un Codificador Translingüístico para el Habla Universal, entrenado con más de 1 millón de horas de datos en 4057 idiomas, lo que amplía la cobertura lingüística de los modelos SSL en un factor de 4. Combinamos 1 millón de horas de habla de corpus accesibles públicamente con un nuevo corpus de más de 7400 horas en 4057 idiomas, que será liberado públicamente. Para manejar las diversas condiciones de los datos multilingües de habla, complementamos el enfoque típico de predicción enmascarada del SSL con un objetivo novedoso de desreverberación, aumentando la robustez. Evaluamos XEUS en varios benchmarks y demostramos que supera consistentemente o alcanza resultados comparables a los modelos SSL de última generación (SOTA) en una variedad de tareas. XEUS establece un nuevo SOTA en el benchmark ML-SUPERB: supera a MMS 1B y w2v-BERT 2.0 v2 en un 0.8% y 4.4% respectivamente, a pesar de tener menos parámetros o datos de preentrenamiento. Los checkpoints, el código y los datos se encuentran en https://www.wavlab.org/activities/2024/xeus/.
English
Self-supervised learning (SSL) has helped extend speech technologies to more
languages by reducing the need for labeled data. However, models are still far
from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual
Encoder for Universal Speech, trained on over 1 million hours of data across
4057 languages, extending the language coverage of SSL models 4-fold. We
combine 1 million hours of speech from existing publicly accessible corpora
with a newly created corpus of 7400+ hours from 4057 languages, which will be
publicly released. To handle the diverse conditions of multilingual speech
data, we augment the typical SSL masked prediction approach with a novel
dereverberation objective, increasing robustness. We evaluate XEUS on several
benchmarks, and show that it consistently outperforms or achieves comparable
results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS
sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT
2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or
pre-training data. Checkpoints, code, and data are found in
https://www.wavlab.org/activities/2024/xeus/.Summary
AI-Generated Summary