ChatPaper.aiChatPaper

WavTokenizer: Ein effizienter akustischer diskreter Codec-Tokenizer für Audio-Sprachmodellierung

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

August 29, 2024
papers.authors: Shengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao
cs.AI

papers.abstract

Sprachmodelle wurden erfolgreich zur Modellierung natürlicher Signale wie Bilder, Videos, Sprache und Audio eingesetzt. Ein entscheidender Bestandteil dieser Modelle ist der Codec-Tokenizer, der hochdimensionale natürliche Signale in niedrigdimensionale diskrete Token komprimiert. In diesem Artikel stellen wir WavTokenizer vor, das mehrere Vorteile gegenüber bisherigen State-of-the-Art (SOTA) akustischen Codec-Modellen im Audiobereich bietet: 1) extreme Kompression. Durch die Kompression der Quantisierungs-Ebenen und der zeitlichen Dimension des diskreten Codecs benötigt eine Sekunde Audio mit einer Abtastrate von 24 kHz nur einen einzigen Quantisierer mit 40 oder 75 Token. 2) verbesserte subjektive Qualität. Trotz der reduzierten Anzahl von Token erreicht WavTokenizer eine state-of-the-art Rekonstruktionsqualität mit hervorragenden UTMOS-Werten und enthält von Natur aus reichere semantische Informationen. Konkret erzielen wir diese Ergebnisse durch die Gestaltung eines breiteren VQ-Raums, erweiterter kontextueller Fenster und verbesserter Aufmerksamkeitsnetzwerke sowie die Einführung eines leistungsstarken Multi-Scale-Diskriminators und einer inversen Fourier-Transformations-Struktur. Wir führten umfangreiche Rekonstruktionsexperimente in den Bereichen Sprache, Audio und Musik durch. WavTokenizer zeigte im Vergleich zu state-of-the-art Modellen eine starke Leistung in verschiedenen objektiven und subjektiven Metriken. Wir testeten auch semantische Informationen, VQ-Nutzung und die Anpassungsfähigkeit an generative Modelle. Umfassende Ablationsstudien bestätigen die Notwendigkeit jedes Moduls in WavTokenizer. Der zugehörige Code, Demos und vortrainierte Modelle sind unter https://github.com/jishengpeng/WavTokenizer verfügbar.
English
Language models have been effectively applied to modeling natural signals, such as images, video, speech, and audio. A crucial component of these models is the codec tokenizer, which compresses high-dimensional natural signals into lower-dimensional discrete tokens. In this paper, we introduce WavTokenizer, which offers several advantages over previous SOTA acoustic codec models in the audio domain: 1)extreme compression. By compressing the layers of quantizers and the temporal dimension of the discrete codec, one-second audio of 24kHz sampling rate requires only a single quantizer with 40 or 75 tokens. 2)improved subjective quality. Despite the reduced number of tokens, WavTokenizer achieves state-of-the-art reconstruction quality with outstanding UTMOS scores and inherently contains richer semantic information. Specifically, we achieve these results by designing a broader VQ space, extended contextual windows, and improved attention networks, as well as introducing a powerful multi-scale discriminator and an inverse Fourier transform structure. We conducted extensive reconstruction experiments in the domains of speech, audio, and music. WavTokenizer exhibited strong performance across various objective and subjective metrics compared to state-of-the-art models. We also tested semantic information, VQ utilization, and adaptability to generative models. Comprehensive ablation studies confirm the necessity of each module in WavTokenizer. The related code, demos, and pre-trained models are available at https://github.com/jishengpeng/WavTokenizer.
PDF504November 14, 2024