ChatPaper.aiChatPaper

3D-Speaker: Um Corpus em Grande Escala Multi-Dispositivo, Multi-Distância e Multi-Dialeto para o Desembaraço de Representações de Fala

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

June 27, 2023
Autores: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI

Resumo

Desvincular informações não correlacionadas em enunciados de fala é um tópico de pesquisa crucial na comunidade de processamento de fala. Diferentes tarefas relacionadas à fala focam em extrair representações distintas da fala enquanto minimizam os efeitos de outras informações não correlacionadas. Apresentamos um corpus de fala em larga escala para facilitar a pesquisa sobre a desvinculação de representações de fala. O 3D-Speaker contém mais de 10.000 falantes, cada um dos quais é gravado simultaneamente por múltiplos Dispositivos, localizados em diferentes Distâncias, e alguns falantes estão falando múltiplos Dialetos. As combinações controladas de dados de áudio multidimensionais resultam em uma matriz de uma mistura diversificada de entrelaçamento de representações de fala, motivando assim métodos intrigantes para desvincular essas representações. A natureza multidomínio do 3D-Speaker também o torna um recurso adequado para avaliar modelos universais de fala em larga escala e experimentar métodos de aprendizado fora do domínio e aprendizado auto-supervisionado. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/
PDF70December 15, 2024