ChatPaper.aiChatPaper

3D-Speaker: Un Corpus Su Larga Scala Multi-Dispositivo, Multi-Distanza e Multi-Dialetto per la Disambiguazione delle Rappresentazioni Vocali

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

June 27, 2023
Autori: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI

Abstract

Disentanglare le informazioni non correlate negli enunciati vocali è un argomento di ricerca cruciale all'interno della comunità del parlato. Diversi compiti legati al parlato si concentrano sull'estrazione di rappresentazioni vocali distinte, minimizzando al contempo gli effetti di altre informazioni non correlate. Presentiamo un corpus vocale su larga scala per facilitare la ricerca sul disaccoppiamento delle rappresentazioni vocali. 3D-Speaker contiene oltre 10.000 parlanti, ciascuno dei quali è registrato simultaneamente da più dispositivi, situati a diverse distanze, e alcuni parlanti utilizzano più dialetti. Le combinazioni controllate di dati audio multidimensionali generano una matrice di un mix diversificato di intrecci di rappresentazioni vocali, stimolando così metodi interessanti per disaccoppiarli. La natura multi-dominio di 3D-Speaker lo rende anche una risorsa adatta per valutare modelli vocali universali su larga scala e sperimentare metodi di apprendimento fuori dominio e apprendimento auto-supervisionato. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/
PDF70December 15, 2024