ChatPaper.aiChatPaper

Rumo a uma Aprendizagem de Representação de Fala Robusta para Milhares de Idiomas

Towards Robust Speech Representation Learning for Thousands of Languages

June 30, 2024
Autores: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI

Resumo

A aprendizagem auto-supervisionada (SSL) tem ajudado a expandir as tecnologias de fala para mais idiomas, reduzindo a necessidade de dados rotulados. No entanto, os modelos ainda estão longe de suportar os 7000+ idiomas do mundo. Propomos o XEUS, um Codificador Cruzado para Fala Universal, treinado em mais de 1 milhão de horas de dados em 4057 idiomas, ampliando a cobertura linguística dos modelos SSL em 4 vezes. Combinamos 1 milhão de horas de fala de corpora publicamente acessíveis existentes com um corpus recém-criado de mais de 7400 horas em 4057 idiomas, que será publicamente disponibilizado. Para lidar com as diversas condições de dados de fala multilíngue, aumentamos a abordagem de previsão mascarada típica do SSL com um novo objetivo de desverberação, aumentando a robustez. Avaliamos o XEUS em vários benchmarks e mostramos que consistentemente supera ou alcança resultados comparáveis aos modelos SSL de última geração em uma variedade de tarefas. O XEUS estabelece um novo estado da arte no benchmark ML-SUPERB: supera o MMS 1B e o w2v-BERT 2.0 v2 em 0,8% e 4,4%, respectivamente, apesar de ter menos parâmetros ou dados de pré-treinamento. Os checkpoints, código e dados podem ser encontrados em https://www.wavlab.org/activities/2024/xeus/.
English
Self-supervised learning (SSL) has helped extend speech technologies to more languages by reducing the need for labeled data. However, models are still far from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual Encoder for Universal Speech, trained on over 1 million hours of data across 4057 languages, extending the language coverage of SSL models 4-fold. We combine 1 million hours of speech from existing publicly accessible corpora with a newly created corpus of 7400+ hours from 4057 languages, which will be publicly released. To handle the diverse conditions of multilingual speech data, we augment the typical SSL masked prediction approach with a novel dereverberation objective, increasing robustness. We evaluate XEUS on several benchmarks, and show that it consistently outperforms or achieves comparable results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT 2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or pre-training data. Checkpoints, code, and data are found in https://www.wavlab.org/activities/2024/xeus/.
PDF111November 28, 2024