К устойчивому обучению представлений речи для тысяч языков
Towards Robust Speech Representation Learning for Thousands of Languages
June 30, 2024
Авторы: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI
Аннотация
Самообучение (SSL) помогло расширить технологии речи на большее количество языков за счет сокращения необходимости в размеченных данных. Однако модели все еще далеки от поддержки более чем 7000 языков мира. Мы предлагаем XEUS, Кросс-языковой Кодировщик для Универсальной Речи, обученный на более чем 1 миллионе часов данных по 4057 языкам, увеличивая охват языков моделей SSL в 4 раза. Мы объединяем 1 миллион часов речи из существующих общедоступных корпусов с недавно созданным корпусом более чем 7400 часов по 4057 языкам, который будет общедоступно опубликован. Для работы с разнообразными условиями мультиязычных данных речи мы дополняем типичный подход самообучения с маскировкой предсказаний новой целью декорреляции, повышая устойчивость. Мы оцениваем XEUS на нескольких показателях и показываем, что он последовательно превосходит или достигает сравнимых результатов с передовыми моделями SSL (SOTA) по различным задачам. XEUS устанавливает новый SOTA на показателе ML-SUPERB: он превосходит MMS 1B и w2v-BERT 2.0 v2 на 0.8% и 4.4% соответственно, несмотря на меньшее количество параметров или предварительных данных. Чекпоинты, код и данные можно найти на https://www.wavlab.org/activities/2024/xeus/.
English
Self-supervised learning (SSL) has helped extend speech technologies to more
languages by reducing the need for labeled data. However, models are still far
from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual
Encoder for Universal Speech, trained on over 1 million hours of data across
4057 languages, extending the language coverage of SSL models 4-fold. We
combine 1 million hours of speech from existing publicly accessible corpora
with a newly created corpus of 7400+ hours from 4057 languages, which will be
publicly released. To handle the diverse conditions of multilingual speech
data, we augment the typical SSL masked prediction approach with a novel
dereverberation objective, increasing robustness. We evaluate XEUS on several
benchmarks, and show that it consistently outperforms or achieves comparable
results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS
sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT
2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or
pre-training data. Checkpoints, code, and data are found in
https://www.wavlab.org/activities/2024/xeus/.Summary
AI-Generated Summary