3D-Speaker: Масштабный корпус с использованием множества устройств, различных дистанций и диалектов для разделения речевых представлений
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
June 27, 2023
Авторы: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI
Аннотация
Разделение некоррелированной информации в речевых высказываниях является важной исследовательской задачей в области обработки речи. Различные задачи, связанные с речью, сосредоточены на извлечении отдельных речевых представлений при минимизации влияния другой некоррелированной информации. Мы представляем крупномасштабный речевой корпус для содействия исследованиям в области разделения речевых представлений. 3D-Speaker содержит более 10 000 дикторов, каждый из которых одновременно записывается с использованием нескольких устройств, расположенных на разных расстояниях, а некоторые дикторы говорят на нескольких диалектах. Контролируемые комбинации многомерных аудиоданных создают матрицу разнообразных смешений речевых представлений, что стимулирует разработку интересных методов для их разделения. Многодоменная природа 3D-Speaker также делает его подходящим ресурсом для оценки крупных универсальных речевых моделей и экспериментов с методами обучения вне домена и самообучения. https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial
research topic within speech community. Different speech-related tasks focus on
extracting distinct speech representations while minimizing the affects of
other uncorrelated information. We present a large-scale speech corpus to
facilitate the research of speech representation disentanglement. 3D-Speaker
contains over 10,000 speakers, each of whom are simultaneously recorded by
multiple Devices, locating at different Distances, and some speakers are
speaking multiple Dialects. The controlled combinations of multi-dimensional
audio data yield a matrix of a diverse blend of speech representation
entanglement, thereby motivating intriguing methods to untangle them. The
multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate
large universal speech models and experiment methods of out-of-domain learning
and self-supervised learning. https://3dspeaker.github.io/