ChatPaper.aiChatPaper

3D-Speaker: Un corpus a gran escala multi-dispositivo, multi-distancia y multi-dialecto para la separación de representaciones del habla

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

June 27, 2023
Autores: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI

Resumen

Desentrañar información no correlacionada en las expresiones orales es un tema de investigación crucial dentro de la comunidad de procesamiento del habla. Diferentes tareas relacionadas con el habla se centran en extraer representaciones del habla distintas mientras se minimiza el impacto de otra información no correlacionada. Presentamos un corpus de habla a gran escala para facilitar la investigación sobre el desentrelazamiento de representaciones del habla. 3D-Speaker contiene más de 10,000 hablantes, cada uno de los cuales es grabado simultáneamente por múltiples dispositivos, ubicados a diferentes distancias, y algunos hablantes utilizan múltiples dialectos. Las combinaciones controladas de datos de audio multidimensionales generan una matriz de una mezcla diversa de entrelazamiento de representaciones del habla, lo que motiva métodos interesantes para desentrañarlas. La naturaleza multidominio de 3D-Speaker también lo convierte en un recurso adecuado para evaluar modelos universales de habla a gran escala y experimentar con métodos de aprendizaje fuera de dominio y aprendizaje autosupervisado. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/
PDF70December 15, 2024