ChatPaper.aiChatPaper

数千の言語に向けた堅牢な音声表現学習の実現に向けて

Towards Robust Speech Representation Learning for Thousands of Languages

June 30, 2024
著者: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI

要旨

自己教師あり学習(SSL)は、ラベル付きデータの必要性を低減することで、音声技術をより多くの言語に拡張するのに貢献してきました。しかし、モデルは依然として世界の7000以上の言語をサポートするには程遠い状況です。私たちは、4057言語にわたる100万時間以上のデータでトレーニングされた、普遍的音声のためのクロスリンガルエンコーダ「XEUS」を提案します。これにより、SSLモデルの言語カバレッジを4倍に拡張します。既存の公開アクセス可能なコーパスから100万時間の音声と、新たに作成した4057言語にわたる7400時間以上のコーパスを組み合わせており、このコーパスは公開されます。多言語音声データの多様な条件に対処するため、典型的なSSLのマスク予測アプローチに新たな残響除去目的を追加し、堅牢性を向上させます。XEUSをいくつかのベンチマークで評価し、様々なタスクにおいて、最先端(SOTA)のSSLモデルと比較して一貫して優れた、または同等の結果を達成することを示します。XEUSはML-SUPERBベンチマークで新たなSOTAを確立し、MMS 1Bおよびw2v-BERT 2.0 v2をそれぞれ0.8%および4.4%上回りました。これは、パラメータ数や事前学習データが少ないにもかかわらず達成されたものです。チェックポイント、コード、データはhttps://www.wavlab.org/activities/2024/xeus/にあります。
English
Self-supervised learning (SSL) has helped extend speech technologies to more languages by reducing the need for labeled data. However, models are still far from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual Encoder for Universal Speech, trained on over 1 million hours of data across 4057 languages, extending the language coverage of SSL models 4-fold. We combine 1 million hours of speech from existing publicly accessible corpora with a newly created corpus of 7400+ hours from 4057 languages, which will be publicly released. To handle the diverse conditions of multilingual speech data, we augment the typical SSL masked prediction approach with a novel dereverberation objective, increasing robustness. We evaluate XEUS on several benchmarks, and show that it consistently outperforms or achieves comparable results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT 2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or pre-training data. Checkpoints, code, and data are found in https://www.wavlab.org/activities/2024/xeus/.

Summary

AI-Generated Summary

PDF111November 28, 2024