ChatPaper.aiChatPaper

이산 오디오 토큰: 단순한 조사를 넘어서!

Discrete Audio Tokens: More Than a Survey!

June 12, 2025
저자: Pooneh Mousavi, Gallil Maimon, Adel Moumen, Darius Petermann, Jiatong Shi, Haibin Wu, Haici Yang, Anastasia Kuznetsova, Artem Ploujnikov, Ricard Marxer, Bhuvana Ramabhadran, Benjamin Elizalde, Loren Lugosch, Jinyu Li, Cem Subakan, Phil Woodland, Minje Kim, Hung-yi Lee, Shinji Watanabe, Yossi Adi, Mirco Ravanelli
cs.AI

초록

이산 오디오 토큰은 지각적 품질, 음성 내용, 화자 특성을 보존하면서도 효율적인 저장 및 추론, 그리고 다양한 다운스트림 작업에서 경쟁력 있는 성능을 가능하게 하는 간결한 표현입니다. 이는 연속적 특성에 대한 실용적인 대안을 제공함으로써 음성 및 오디오를 현대의 대규모 언어 모델(LLMs)에 통합할 수 있게 합니다. 토큰 기반 오디오 처리에 대한 관심이 증가함에 따라 다양한 토큰화 방법이 등장했으며, 여러 연구가 이 분야의 최신 동향을 검토했습니다. 그러나 기존 연구들은 특정 도메인이나 작업에 초점을 맞추는 경우가 많아 다양한 벤치마크에 걸친 통일된 비교가 부족합니다. 본 논문은 음성, 음악, 일반 오디오 세 가지 도메인을 아우르는 이산 오디오 토크나이저에 대한 체계적인 리뷰와 벤치마크를 제시합니다. 우리는 인코더-디코더, 양자화 기술, 훈련 패러다임, 스트리밍 가능성, 응용 도메인을 기반으로 토큰화 접근법의 분류 체계를 제안합니다. 복원, 다운스트림 성능, 음향 언어 모델링을 위한 여러 벤치마크에서 토크나이저를 평가하고, 통제된 절제 연구를 통해 트레이드오프를 분석합니다. 우리의 연구 결과는 주요 한계, 실용적 고려 사항, 그리고 미해결 과제를 강조하며, 이 빠르게 진화하는 분야의 미래 연구를 위한 통찰과 지침을 제공합니다. 주요 결과 및 토크나이저 데이터베이스를 포함한 더 많은 정보는 저희 웹사이트(https://poonehmousavi.github.io/dates-website/)를 참조하십시오.
English
Discrete audio tokens are compact representations that aim to preserve perceptual quality, phonetic content, and speaker characteristics while enabling efficient storage and inference, as well as competitive performance across diverse downstream tasks.They provide a practical alternative to continuous features, enabling the integration of speech and audio into modern large language models (LLMs). As interest in token-based audio processing grows, various tokenization methods have emerged, and several surveys have reviewed the latest progress in the field. However, existing studies often focus on specific domains or tasks and lack a unified comparison across various benchmarks. This paper presents a systematic review and benchmark of discrete audio tokenizers, covering three domains: speech, music, and general audio. We propose a taxonomy of tokenization approaches based on encoder-decoder, quantization techniques, training paradigm, streamability, and application domains. We evaluate tokenizers on multiple benchmarks for reconstruction, downstream performance, and acoustic language modeling, and analyze trade-offs through controlled ablation studies. Our findings highlight key limitations, practical considerations, and open challenges, providing insight and guidance for future research in this rapidly evolving area. For more information, including our main results and tokenizer database, please refer to our website: https://poonehmousavi.github.io/dates-website/.
PDF242June 13, 2025