Compression audio haute fidélité avec RVQGAN amélioré
High-Fidelity Audio Compression with Improved RVQGAN
June 11, 2023
Auteurs: Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar
cs.AI
Résumé
Les modèles de langage ont été utilisés avec succès pour modéliser des signaux naturels, tels que les images, la parole et la musique. Un élément clé de ces modèles est un algorithme de compression neuronale de haute qualité capable de compresser des signaux naturels de haute dimension en tokens discrets de dimension inférieure. Dans cette optique, nous introduisons un algorithme universel de compression audio neuronale à haute fidélité qui permet une compression d'environ 90x d'audio à 44,1 KHz en tokens avec une bande passante de seulement 8 kbps. Nous y parvenons en combinant des avancées dans la génération audio haute fidélité avec des techniques de quantification vectorielle améliorées issues du domaine de l'image, ainsi que des fonctions de perte adverses et de reconstruction optimisées. Nous compressons tous les domaines (parole, environnement, musique, etc.) avec un seul modèle universel, le rendant largement applicable à la modélisation générative de tout type d'audio. Nous comparons notre méthode à d'autres algorithmes de compression audio concurrents et constatons qu'elle les surpasse significativement. Nous fournissons des analyses approfondies pour chaque choix de conception, ainsi que le code open-source et les poids des modèles entraînés. Nous espérons que notre travail pourra poser les bases de la prochaine génération de modélisation audio haute fidélité.
English
Language models have been successfully used to model natural signals, such as
images, speech, and music. A key component of these models is a high quality
neural compression model that can compress high-dimensional natural signals
into lower dimensional discrete tokens. To that end, we introduce a
high-fidelity universal neural audio compression algorithm that achieves ~90x
compression of 44.1 KHz audio into tokens at just 8kbps bandwidth. We achieve
this by combining advances in high-fidelity audio generation with better vector
quantization techniques from the image domain, along with improved adversarial
and reconstruction losses. We compress all domains (speech, environment, music,
etc.) with a single universal model, making it widely applicable to generative
modeling of all audio. We compare with competing audio compression algorithms,
and find our method outperforms them significantly. We provide thorough
ablations for every design choice, as well as open-source code and trained
model weights. We hope our work can lay the foundation for the next generation
of high-fidelity audio modeling.