3D-Speaker : Un corpus à grande échelle multi-appareil, multi-distance et multi-dialecte pour la dissociation des représentations vocales
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
June 27, 2023
Auteurs: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI
Résumé
La séparation des informations non corrélées dans les énoncés vocaux constitue un sujet de recherche crucial au sein de la communauté de la parole. Différentes tâches liées à la parole visent à extraire des représentations vocales distinctes tout en minimisant l’impact des autres informations non corrélées. Nous présentons un corpus vocal à grande échelle pour faciliter la recherche sur la séparation des représentations vocales. 3D-Speaker contient plus de 10 000 locuteurs, chacun étant enregistré simultanément par plusieurs appareils, situés à différentes distances, et certains locuteurs parlent plusieurs dialectes. Les combinaisons contrôlées de données audio multidimensionnelles produisent une matrice de mélanges diversifiés d’enchevêtrement de représentations vocales, motivant ainsi des méthodes intrigantes pour les démêler. La nature multidomaine de 3D-Speaker en fait également une ressource adaptée pour évaluer des modèles vocaux universels de grande envergure et expérimenter des méthodes d’apprentissage hors domaine et d’apprentissage auto-supervisé. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial
research topic within speech community. Different speech-related tasks focus on
extracting distinct speech representations while minimizing the affects of
other uncorrelated information. We present a large-scale speech corpus to
facilitate the research of speech representation disentanglement. 3D-Speaker
contains over 10,000 speakers, each of whom are simultaneously recorded by
multiple Devices, locating at different Distances, and some speakers are
speaking multiple Dialects. The controlled combinations of multi-dimensional
audio data yield a matrix of a diverse blend of speech representation
entanglement, thereby motivating intriguing methods to untangle them. The
multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate
large universal speech models and experiment methods of out-of-domain learning
and self-supervised learning. https://3dspeaker.github.io/