Compression audio haute fidélité avec RVQGAN amélioré

High-Fidelity Audio Compression with Improved RVQGAN

June 11, 2023
Auteurs: Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar
cs.AI

Résumé

Les modèles de langage ont été utilisés avec succès pour modéliser des signaux naturels, tels que les images, la parole et la musique. Un élément clé de ces modèles est un algorithme de compression neuronale de haute qualité capable de compresser des signaux naturels de haute dimension en tokens discrets de dimension inférieure. Dans cette optique, nous introduisons un algorithme universel de compression audio neuronale à haute fidélité qui permet une compression d'environ 90x d'audio à 44,1 KHz en tokens avec une bande passante de seulement 8 kbps. Nous y parvenons en combinant des avancées dans la génération audio haute fidélité avec des techniques de quantification vectorielle améliorées issues du domaine de l'image, ainsi que des fonctions de perte adverses et de reconstruction optimisées. Nous compressons tous les domaines (parole, environnement, musique, etc.) avec un seul modèle universel, le rendant largement applicable à la modélisation générative de tout type d'audio. Nous comparons notre méthode à d'autres algorithmes de compression audio concurrents et constatons qu'elle les surpasse significativement. Nous fournissons des analyses approfondies pour chaque choix de conception, ainsi que le code open-source et les poids des modèles entraînés. Nous espérons que notre travail pourra poser les bases de la prochaine génération de modélisation audio haute fidélité.
English
Language models have been successfully used to model natural signals, such as images, speech, and music. A key component of these models is a high quality neural compression model that can compress high-dimensional natural signals into lower dimensional discrete tokens. To that end, we introduce a high-fidelity universal neural audio compression algorithm that achieves ~90x compression of 44.1 KHz audio into tokens at just 8kbps bandwidth. We achieve this by combining advances in high-fidelity audio generation with better vector quantization techniques from the image domain, along with improved adversarial and reconstruction losses. We compress all domains (speech, environment, music, etc.) with a single universal model, making it widely applicable to generative modeling of all audio. We compare with competing audio compression algorithms, and find our method outperforms them significantly. We provide thorough ablations for every design choice, as well as open-source code and trained model weights. We hope our work can lay the foundation for the next generation of high-fidelity audio modeling.
PDF101December 15, 2024