Richtung Robustes Sprachrepräsentationslernen für Tausende von Sprachen
Towards Robust Speech Representation Learning for Thousands of Languages
June 30, 2024
Autoren: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI
Zusammenfassung
Die selbstüberwachte Lernmethode (Self-supervised learning, SSL) hat dazu beigetragen, Sprachtechnologien auf mehr Sprachen auszudehnen, indem sie den Bedarf an gekennzeichneten Daten reduziert. Allerdings sind die Modelle noch weit davon entfernt, die über 7000 Sprachen der Welt zu unterstützen. Wir schlagen XEUS vor, einen Cross-lingual Encoder für universelle Sprache, der auf über 1 Million Stunden Daten in 4057 Sprachen trainiert wurde und die Sprachabdeckung von SSL-Modellen um das 4-fache erweitert. Wir kombinieren 1 Million Stunden Sprache aus bestehenden öffentlich zugänglichen Korpora mit einem neu erstellten Korpus von über 7400 Stunden aus 4057 Sprachen, der öffentlich freigegeben wird. Um die vielfältigen Bedingungen multilingualer Sprachdaten zu bewältigen, erweitern wir den typischen SSL-Maskenprädiktionsansatz um ein neuartiges Dereverberation-Ziel, um die Robustheit zu erhöhen. Wir evaluieren XEUS anhand mehrerer Benchmarks und zeigen, dass es konsistent bessere Ergebnisse erzielt oder vergleichbare Ergebnisse wie modernste SSL-Modelle bei einer Vielzahl von Aufgaben erreicht. XEUS setzt einen neuen Stand der Technik (SOTA) im ML-SUPERB-Benchmark: Es übertrifft MMS 1B und w2v-BERT 2.0 v2 jeweils um 0,8% bzw. 4,4%, obwohl es weniger Parameter oder Vortrainingsdaten hat. Checkpoints, Code und Daten sind unter https://www.wavlab.org/activities/2024/xeus/ verfügbar.
English
Self-supervised learning (SSL) has helped extend speech technologies to more
languages by reducing the need for labeled data. However, models are still far
from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual
Encoder for Universal Speech, trained on over 1 million hours of data across
4057 languages, extending the language coverage of SSL models 4-fold. We
combine 1 million hours of speech from existing publicly accessible corpora
with a newly created corpus of 7400+ hours from 4057 languages, which will be
publicly released. To handle the diverse conditions of multilingual speech
data, we augment the typical SSL masked prediction approach with a novel
dereverberation objective, increasing robustness. We evaluate XEUS on several
benchmarks, and show that it consistently outperforms or achieves comparable
results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS
sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT
2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or
pre-training data. Checkpoints, code, and data are found in
https://www.wavlab.org/activities/2024/xeus/.Summary
AI-Generated Summary