ChatPaper.aiChatPaper

WavTokenizer: 오디오 언어 모델링을 위한 효율적인 음향 이산 코드 토크나이저

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

August 29, 2024
저자: Shengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao
cs.AI

초록

언어 모델은 이미지, 비디오, 음성, 오디오와 같은 자연 신호를 모델링하는 데 효과적으로 적용되어 왔습니다. 이러한 모델의 중요한 구성 요소는 고차원의 자연 신호를 저차원의 이산 토큰으로 압축하는 코덱 토크나이저입니다. 본 논문에서는 오디오 도메인에서 기존 SOTA 음향 코덱 모델 대비 여러 가지 장점을 제공하는 WavTokenizer를 소개합니다: 1) 극단적인 압축. 양자화기 계층과 이산 코덱의 시간 차원을 압축함으로써, 24kHz 샘플링 속도의 1초 오디오에 대해 단일 양자화기와 40 또는 75개의 토큰만 필요합니다. 2) 향상된 주관적 품질. 토큰 수가 줄어들었음에도 불구하고, WavTokenizer는 우수한 UTMOS 점수와 더 풍부한 의미 정보를 내포한 최첨단 재구성 품질을 달성합니다. 특히, 더 넓은 VQ 공간, 확장된 컨텍스트 윈도우, 개선된 어텐션 네트워크를 설계하고, 강력한 멀티스케일 판별기와 역 푸리에 변환 구조를 도입함으로써 이러한 결과를 달성했습니다. 음성, 오디오, 음악 도메인에서 광범위한 재구성 실험을 수행했습니다. WavTokenizer는 최첨단 모델 대비 다양한 객관적 및 주관적 지표에서 강력한 성능을 보였습니다. 또한 의미 정보, VQ 활용도, 생성 모델에 대한 적응성도 테스트했습니다. 포괄적인 어블레이션 연구는 WavTokenizer의 각 모듈의 필요성을 확인합니다. 관련 코드, 데모, 사전 학습된 모델은 https://github.com/jishengpeng/WavTokenizer에서 확인할 수 있습니다.
English
Language models have been effectively applied to modeling natural signals, such as images, video, speech, and audio. A crucial component of these models is the codec tokenizer, which compresses high-dimensional natural signals into lower-dimensional discrete tokens. In this paper, we introduce WavTokenizer, which offers several advantages over previous SOTA acoustic codec models in the audio domain: 1)extreme compression. By compressing the layers of quantizers and the temporal dimension of the discrete codec, one-second audio of 24kHz sampling rate requires only a single quantizer with 40 or 75 tokens. 2)improved subjective quality. Despite the reduced number of tokens, WavTokenizer achieves state-of-the-art reconstruction quality with outstanding UTMOS scores and inherently contains richer semantic information. Specifically, we achieve these results by designing a broader VQ space, extended contextual windows, and improved attention networks, as well as introducing a powerful multi-scale discriminator and an inverse Fourier transform structure. We conducted extensive reconstruction experiments in the domains of speech, audio, and music. WavTokenizer exhibited strong performance across various objective and subjective metrics compared to state-of-the-art models. We also tested semantic information, VQ utilization, and adaptability to generative models. Comprehensive ablation studies confirm the necessity of each module in WavTokenizer. The related code, demos, and pre-trained models are available at https://github.com/jishengpeng/WavTokenizer.
PDF504November 14, 2024