3D-Speaker: Um Corpus em Grande Escala Multi-Dispositivo, Multi-Distância e Multi-Dialeto para o Desembaraço de Representações de Fala
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
June 27, 2023
Autores: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI
Resumo
Desvincular informações não correlacionadas em enunciados de fala é um tópico de pesquisa crucial na comunidade de processamento de fala. Diferentes tarefas relacionadas à fala focam em extrair representações distintas da fala enquanto minimizam os efeitos de outras informações não correlacionadas. Apresentamos um corpus de fala em larga escala para facilitar a pesquisa sobre a desvinculação de representações de fala. O 3D-Speaker contém mais de 10.000 falantes, cada um dos quais é gravado simultaneamente por múltiplos Dispositivos, localizados em diferentes Distâncias, e alguns falantes estão falando múltiplos Dialetos. As combinações controladas de dados de áudio multidimensionais resultam em uma matriz de uma mistura diversificada de entrelaçamento de representações de fala, motivando assim métodos intrigantes para desvincular essas representações. A natureza multidomínio do 3D-Speaker também o torna um recurso adequado para avaliar modelos universais de fala em larga escala e experimentar métodos de aprendizado fora do domínio e aprendizado auto-supervisionado. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial
research topic within speech community. Different speech-related tasks focus on
extracting distinct speech representations while minimizing the affects of
other uncorrelated information. We present a large-scale speech corpus to
facilitate the research of speech representation disentanglement. 3D-Speaker
contains over 10,000 speakers, each of whom are simultaneously recorded by
multiple Devices, locating at different Distances, and some speakers are
speaking multiple Dialects. The controlled combinations of multi-dimensional
audio data yield a matrix of a diverse blend of speech representation
entanglement, thereby motivating intriguing methods to untangle them. The
multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate
large universal speech models and experiment methods of out-of-domain learning
and self-supervised learning. https://3dspeaker.github.io/