ChatPaper.aiChatPaper

WavTokenizer: 音声言語モデリングのための効率的な音響離散符号化トークナイザー

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

August 29, 2024
著者: Shengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao
cs.AI

要旨

言語モデルは、画像、動画、音声、オーディオなどの自然信号のモデリングに効果的に適用されてきました。これらのモデルの重要なコンポーネントは、高次元の自然信号を低次元の離散トークンに圧縮するコーデックトークナイザーです。本論文では、音声ドメインにおける従来のSOTA音声コーデックモデルに対していくつかの利点を提供するWavTokenizerを紹介します。1)極端な圧縮。量子化器の層と離散コーデックの時間次元を圧縮することにより、24kHzサンプリングレートの1秒のオーディオは、40または75トークンの単一の量子化器のみを必要とします。2)主観的品質の向上。トークン数が減少しているにもかかわらず、WavTokenizerは優れたUTMOSスコアとより豊富な意味情報を内包し、最先端の再構築品質を達成します。具体的には、より広範なVQ空間、拡張されたコンテキストウィンドウ、改良されたアテンションネットワークの設計、および強力なマルチスケールディスクリミネーターと逆フーリエ変換構造の導入により、これらの結果を達成しました。音声、オーディオ、音楽のドメインで広範な再構築実験を実施しました。WavTokenizerは、最先端のモデルと比較して、さまざまな客観的および主観的指標で強力なパフォーマンスを示しました。また、意味情報、VQの利用率、生成モデルへの適応性もテストしました。包括的なアブレーションスタディにより、WavTokenizerの各モジュールの必要性が確認されました。関連するコード、デモ、および事前学習済みモデルはhttps://github.com/jishengpeng/WavTokenizerで利用可能です。
English
Language models have been effectively applied to modeling natural signals, such as images, video, speech, and audio. A crucial component of these models is the codec tokenizer, which compresses high-dimensional natural signals into lower-dimensional discrete tokens. In this paper, we introduce WavTokenizer, which offers several advantages over previous SOTA acoustic codec models in the audio domain: 1)extreme compression. By compressing the layers of quantizers and the temporal dimension of the discrete codec, one-second audio of 24kHz sampling rate requires only a single quantizer with 40 or 75 tokens. 2)improved subjective quality. Despite the reduced number of tokens, WavTokenizer achieves state-of-the-art reconstruction quality with outstanding UTMOS scores and inherently contains richer semantic information. Specifically, we achieve these results by designing a broader VQ space, extended contextual windows, and improved attention networks, as well as introducing a powerful multi-scale discriminator and an inverse Fourier transform structure. We conducted extensive reconstruction experiments in the domains of speech, audio, and music. WavTokenizer exhibited strong performance across various objective and subjective metrics compared to state-of-the-art models. We also tested semantic information, VQ utilization, and adaptability to generative models. Comprehensive ablation studies confirm the necessity of each module in WavTokenizer. The related code, demos, and pre-trained models are available at https://github.com/jishengpeng/WavTokenizer.
PDF504November 14, 2024