WavTokenizer: Ein effizienter akustischer diskreter Codec-Tokenizer für Audio-Sprachmodellierung
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
August 29, 2024
papers.authors: Shengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao
cs.AI
papers.abstract
Sprachmodelle wurden erfolgreich zur Modellierung natürlicher Signale wie Bilder, Videos, Sprache und Audio eingesetzt. Ein entscheidender Bestandteil dieser Modelle ist der Codec-Tokenizer, der hochdimensionale natürliche Signale in niedrigdimensionale diskrete Token komprimiert. In diesem Artikel stellen wir WavTokenizer vor, das mehrere Vorteile gegenüber bisherigen State-of-the-Art (SOTA) akustischen Codec-Modellen im Audiobereich bietet: 1) extreme Kompression. Durch die Kompression der Quantisierungs-Ebenen und der zeitlichen Dimension des diskreten Codecs benötigt eine Sekunde Audio mit einer Abtastrate von 24 kHz nur einen einzigen Quantisierer mit 40 oder 75 Token. 2) verbesserte subjektive Qualität. Trotz der reduzierten Anzahl von Token erreicht WavTokenizer eine state-of-the-art Rekonstruktionsqualität mit hervorragenden UTMOS-Werten und enthält von Natur aus reichere semantische Informationen. Konkret erzielen wir diese Ergebnisse durch die Gestaltung eines breiteren VQ-Raums, erweiterter kontextueller Fenster und verbesserter Aufmerksamkeitsnetzwerke sowie die Einführung eines leistungsstarken Multi-Scale-Diskriminators und einer inversen Fourier-Transformations-Struktur. Wir führten umfangreiche Rekonstruktionsexperimente in den Bereichen Sprache, Audio und Musik durch. WavTokenizer zeigte im Vergleich zu state-of-the-art Modellen eine starke Leistung in verschiedenen objektiven und subjektiven Metriken. Wir testeten auch semantische Informationen, VQ-Nutzung und die Anpassungsfähigkeit an generative Modelle. Umfassende Ablationsstudien bestätigen die Notwendigkeit jedes Moduls in WavTokenizer. Der zugehörige Code, Demos und vortrainierte Modelle sind unter https://github.com/jishengpeng/WavTokenizer verfügbar.
English
Language models have been effectively applied to modeling natural signals,
such as images, video, speech, and audio. A crucial component of these models
is the codec tokenizer, which compresses high-dimensional natural signals into
lower-dimensional discrete tokens. In this paper, we introduce WavTokenizer,
which offers several advantages over previous SOTA acoustic codec models in the
audio domain: 1)extreme compression. By compressing the layers of quantizers
and the temporal dimension of the discrete codec, one-second audio of 24kHz
sampling rate requires only a single quantizer with 40 or 75 tokens. 2)improved
subjective quality. Despite the reduced number of tokens, WavTokenizer achieves
state-of-the-art reconstruction quality with outstanding UTMOS scores and
inherently contains richer semantic information. Specifically, we achieve these
results by designing a broader VQ space, extended contextual windows, and
improved attention networks, as well as introducing a powerful multi-scale
discriminator and an inverse Fourier transform structure. We conducted
extensive reconstruction experiments in the domains of speech, audio, and
music. WavTokenizer exhibited strong performance across various objective and
subjective metrics compared to state-of-the-art models. We also tested semantic
information, VQ utilization, and adaptability to generative models.
Comprehensive ablation studies confirm the necessity of each module in
WavTokenizer. The related code, demos, and pre-trained models are available at
https://github.com/jishengpeng/WavTokenizer.