3D-Speaker: 音声表現の分離のための大規模マルチデバイス・マルチ距離・マルチ方言コーパス
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
June 27, 2023
著者: Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen
cs.AI
要旨
音声発話における無相関な情報を分離することは、音声コミュニティにおける重要な研究テーマです。さまざまな音声関連タスクでは、他の無相関な情報の影響を最小化しつつ、異なる音声表現を抽出することに焦点を当てています。本論文では、音声表現の分離研究を促進するための大規模な音声コーパスを紹介します。3D-Speakerは、10,000人以上の話者を含み、各話者は複数のデバイスで同時に録音され、異なる距離に位置し、一部の話者は複数の方言を話します。多次元の音声データの制御された組み合わせにより、多様な音声表現の絡み合いのマトリックスが生成され、それらを解きほぐすための興味深い手法を動機付けます。3D-Speakerのマルチドメイン性は、大規模な汎用音声モデルの評価や、ドメイン外学習や自己教師あり学習の実験手法にも適したリソースとなっています。https://3dspeaker.github.io/
English
Disentangling uncorrelated information in speech utterances is a crucial
research topic within speech community. Different speech-related tasks focus on
extracting distinct speech representations while minimizing the affects of
other uncorrelated information. We present a large-scale speech corpus to
facilitate the research of speech representation disentanglement. 3D-Speaker
contains over 10,000 speakers, each of whom are simultaneously recorded by
multiple Devices, locating at different Distances, and some speakers are
speaking multiple Dialects. The controlled combinations of multi-dimensional
audio data yield a matrix of a diverse blend of speech representation
entanglement, thereby motivating intriguing methods to untangle them. The
multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate
large universal speech models and experiment methods of out-of-domain learning
and self-supervised learning. https://3dspeaker.github.io/