Hochwertige Audiokompression mit verbessertem RVQGAN

High-Fidelity Audio Compression with Improved RVQGAN

June 11, 2023
Autoren: Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar
cs.AI

Zusammenfassung

Sprachmodelle wurden erfolgreich zur Modellierung natürlicher Signale wie Bilder, Sprache und Musik eingesetzt. Ein Schlüsselkomponent dieser Modelle ist ein hochwertiges neuronales Kompressionsmodell, das hochdimensionale natürliche Signale in niedrigdimensionale diskrete Tokens komprimieren kann. Zu diesem Zweck führen wir einen hochauflösenden universellen neuronalen Audio-Kompressionsalgorithmus ein, der eine ~90-fache Kompression von 44,1 KHz Audio in Tokens bei einer Bandbreite von nur 8 kbps erreicht. Dies erreichen wir durch die Kombination von Fortschritten in der hochauflösenden Audioerzeugung mit verbesserten Vektorquantisierungstechniken aus dem Bildbereich sowie optimierten adversariellen und Rekonstruktionsverlusten. Wir komprimieren alle Bereiche (Sprache, Umgebungsgeräusche, Musik usw.) mit einem einzigen universellen Modell, was es weitgehend anwendbar für die generative Modellierung aller Audioformen macht. Wir vergleichen unsere Methode mit konkurrierenden Audio-Kompressionsalgorithmen und stellen fest, dass unser Ansatz diese deutlich übertrifft. Wir bieten umfassende Ablationen für jede Designentscheidung sowie Open-Source-Code und trainierte Modellgewichte an. Wir hoffen, dass unsere Arbeit die Grundlage für die nächste Generation der hochauflösenden Audiomodellierung legen kann.
English
Language models have been successfully used to model natural signals, such as images, speech, and music. A key component of these models is a high quality neural compression model that can compress high-dimensional natural signals into lower dimensional discrete tokens. To that end, we introduce a high-fidelity universal neural audio compression algorithm that achieves ~90x compression of 44.1 KHz audio into tokens at just 8kbps bandwidth. We achieve this by combining advances in high-fidelity audio generation with better vector quantization techniques from the image domain, along with improved adversarial and reconstruction losses. We compress all domains (speech, environment, music, etc.) with a single universal model, making it widely applicable to generative modeling of all audio. We compare with competing audio compression algorithms, and find our method outperforms them significantly. We provide thorough ablations for every design choice, as well as open-source code and trained model weights. We hope our work can lay the foundation for the next generation of high-fidelity audio modeling.
PDF101December 15, 2024