ChatPaper.aiChatPaper

離散音声トークン:単なるサーベイ以上の意義!

Discrete Audio Tokens: More Than a Survey!

June 12, 2025
著者: Pooneh Mousavi, Gallil Maimon, Adel Moumen, Darius Petermann, Jiatong Shi, Haibin Wu, Haici Yang, Anastasia Kuznetsova, Artem Ploujnikov, Ricard Marxer, Bhuvana Ramabhadran, Benjamin Elizalde, Loren Lugosch, Jinyu Li, Cem Subakan, Phil Woodland, Minje Kim, Hung-yi Lee, Shinji Watanabe, Yossi Adi, Mirco Ravanelli
cs.AI

要旨

離散音声トークンは、知覚品質、音声内容、および話者特性を保持しつつ、効率的な保存と推論、多様な下流タスクでの競争力のある性能を実現するためのコンパクトな表現である。これらは連続的特徴に対する実用的な代替手段を提供し、音声やオーディオを現代の大規模言語モデル(LLMs)に統合することを可能にする。トークンベースの音声処理への関心が高まる中、様々なトークン化手法が登場し、いくつかのサーベイがこの分野の最新の進展をレビューしている。しかし、既存の研究は特定のドメインやタスクに焦点を当てることが多く、様々なベンチマークにわたる統一的な比較が欠けている。本論文では、音声、音楽、一般オーディオの3つのドメインをカバーする離散音声トークナイザーの体系的レビューとベンチマークを提示する。我々は、エンコーダ-デコーダ、量子化技術、トレーニングパラダイム、ストリーミング性、および応用ドメインに基づいてトークン化アプローチの分類を提案する。我々は、再構成、下流性能、および音響言語モデリングのための複数のベンチマークでトークナイザーを評価し、制御されたアブレーション研究を通じてトレードオフを分析する。我々の調査結果は、主要な制約、実用的な考慮事項、および未解決の課題を強調し、この急速に進化する分野の将来の研究に対する洞察と指針を提供する。主要な結果やトークナイザーデータベースを含む詳細については、我々のウェブサイト(https://poonehmousavi.github.io/dates-website/)を参照されたい。
English
Discrete audio tokens are compact representations that aim to preserve perceptual quality, phonetic content, and speaker characteristics while enabling efficient storage and inference, as well as competitive performance across diverse downstream tasks.They provide a practical alternative to continuous features, enabling the integration of speech and audio into modern large language models (LLMs). As interest in token-based audio processing grows, various tokenization methods have emerged, and several surveys have reviewed the latest progress in the field. However, existing studies often focus on specific domains or tasks and lack a unified comparison across various benchmarks. This paper presents a systematic review and benchmark of discrete audio tokenizers, covering three domains: speech, music, and general audio. We propose a taxonomy of tokenization approaches based on encoder-decoder, quantization techniques, training paradigm, streamability, and application domains. We evaluate tokenizers on multiple benchmarks for reconstruction, downstream performance, and acoustic language modeling, and analyze trade-offs through controlled ablation studies. Our findings highlight key limitations, practical considerations, and open challenges, providing insight and guidance for future research in this rapidly evolving area. For more information, including our main results and tokenizer database, please refer to our website: https://poonehmousavi.github.io/dates-website/.
PDF242June 13, 2025