Hochwertige Audiokompression mit verbessertem RVQGAN
High-Fidelity Audio Compression with Improved RVQGAN
June 11, 2023
Autoren: Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar
cs.AI
Zusammenfassung
Sprachmodelle wurden erfolgreich zur Modellierung natürlicher Signale wie Bilder, Sprache und Musik eingesetzt. Ein Schlüsselkomponent dieser Modelle ist ein hochwertiges neuronales Kompressionsmodell, das hochdimensionale natürliche Signale in niedrigdimensionale diskrete Tokens komprimieren kann. Zu diesem Zweck führen wir einen hochauflösenden universellen neuronalen Audio-Kompressionsalgorithmus ein, der eine ~90-fache Kompression von 44,1 KHz Audio in Tokens bei einer Bandbreite von nur 8 kbps erreicht. Dies erreichen wir durch die Kombination von Fortschritten in der hochauflösenden Audioerzeugung mit verbesserten Vektorquantisierungstechniken aus dem Bildbereich sowie optimierten adversariellen und Rekonstruktionsverlusten. Wir komprimieren alle Bereiche (Sprache, Umgebungsgeräusche, Musik usw.) mit einem einzigen universellen Modell, was es weitgehend anwendbar für die generative Modellierung aller Audioformen macht. Wir vergleichen unsere Methode mit konkurrierenden Audio-Kompressionsalgorithmen und stellen fest, dass unser Ansatz diese deutlich übertrifft. Wir bieten umfassende Ablationen für jede Designentscheidung sowie Open-Source-Code und trainierte Modellgewichte an. Wir hoffen, dass unsere Arbeit die Grundlage für die nächste Generation der hochauflösenden Audiomodellierung legen kann.
English
Language models have been successfully used to model natural signals, such as
images, speech, and music. A key component of these models is a high quality
neural compression model that can compress high-dimensional natural signals
into lower dimensional discrete tokens. To that end, we introduce a
high-fidelity universal neural audio compression algorithm that achieves ~90x
compression of 44.1 KHz audio into tokens at just 8kbps bandwidth. We achieve
this by combining advances in high-fidelity audio generation with better vector
quantization techniques from the image domain, along with improved adversarial
and reconstruction losses. We compress all domains (speech, environment, music,
etc.) with a single universal model, making it widely applicable to generative
modeling of all audio. We compare with competing audio compression algorithms,
and find our method outperforms them significantly. We provide thorough
ablations for every design choice, as well as open-source code and trained
model weights. We hope our work can lay the foundation for the next generation
of high-fidelity audio modeling.