Compresión de Audio de Alta Fidelidad con RVQGAN Mejorado
High-Fidelity Audio Compression with Improved RVQGAN
June 11, 2023
Autores: Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar
cs.AI
Resumen
Los modelos de lenguaje han sido utilizados con éxito para modelar señales naturales, como imágenes, voz y música. Un componente clave de estos modelos es un sistema de compresión neuronal de alta calidad que puede comprimir señales naturales de alta dimensionalidad en tokens discretos de menor dimensionalidad. Con este fin, presentamos un algoritmo universal de compresión neuronal de audio de alta fidelidad que logra una compresión de ~90x de audio a 44.1 KHz en tokens con un ancho de banda de solo 8 kbps. Esto lo conseguimos combinando avances en la generación de audio de alta fidelidad con mejores técnicas de cuantización vectorial del dominio de las imágenes, junto con pérdidas adversarias y de reconstrucción mejoradas. Comprimimos todos los dominios (voz, sonidos ambientales, música, etc.) con un único modelo universal, lo que lo hace ampliamente aplicable al modelado generativo de todo tipo de audio. Comparamos nuestro método con otros algoritmos de compresión de audio y encontramos que supera significativamente a la competencia. Proporcionamos análisis detallados para cada decisión de diseño, así como código de código abierto y pesos de modelos entrenados. Esperamos que nuestro trabajo siente las bases para la próxima generación de modelado de audio de alta fidelidad.
English
Language models have been successfully used to model natural signals, such as
images, speech, and music. A key component of these models is a high quality
neural compression model that can compress high-dimensional natural signals
into lower dimensional discrete tokens. To that end, we introduce a
high-fidelity universal neural audio compression algorithm that achieves ~90x
compression of 44.1 KHz audio into tokens at just 8kbps bandwidth. We achieve
this by combining advances in high-fidelity audio generation with better vector
quantization techniques from the image domain, along with improved adversarial
and reconstruction losses. We compress all domains (speech, environment, music,
etc.) with a single universal model, making it widely applicable to generative
modeling of all audio. We compare with competing audio compression algorithms,
and find our method outperforms them significantly. We provide thorough
ablations for every design choice, as well as open-source code and trained
model weights. We hope our work can lay the foundation for the next generation
of high-fidelity audio modeling.