Apollo : Modélisation de séquence de bandes pour la restauration audio de haute qualité
Apollo: Band-sequence Modeling for High-Quality Audio Restoration
September 13, 2024
Auteurs: Kai Li, Yi Luo
cs.AI
Résumé
La restauration audio est devenue de plus en plus importante dans la société moderne, non seulement en raison de la demande d'expériences auditives de haute qualité rendues possibles par des dispositifs de lecture avancés, mais aussi parce que les capacités croissantes des modèles audio génératifs nécessitent une audio haute fidélité. Typiquement, la restauration audio est définie comme une tâche de prédire un audio non déformé à partir d'une entrée endommagée, souvent entraînée en utilisant un cadre GAN pour équilibrer la perception et la distorsion. Comme la dégradation audio est principalement concentrée dans les plages de fréquences moyennes et élevées, en particulier en raison des codecs, un défi clé réside dans la conception d'un générateur capable de préserver les informations de basse fréquence tout en reconstruisant de manière précise un contenu audio de qualité moyenne et élevée. Inspiré par les récents progrès dans la séparation musicale à haut taux d'échantillonnage, l'amélioration de la parole et les modèles de codec audio, nous proposons Apollo, un modèle génératif conçu pour la restauration audio à haut taux d'échantillonnage. Apollo utilise un module explicite de division de bande de fréquence pour modéliser les relations entre différentes bandes de fréquences, permettant une audio restaurée plus cohérente et de meilleure qualité. Évalué sur les ensembles de données MUSDB18-HQ et MoisesDB, Apollo surpasse systématiquement les modèles SR-GAN existants à travers divers débits et genres musicaux, se distinguant particulièrement dans des scénarios complexes impliquant des mélanges de plusieurs instruments et voix. Apollo améliore significativement la qualité de la restauration musicale tout en maintenant une efficacité computationnelle. Le code source d'Apollo est publiquement disponible sur https://github.com/JusperLee/Apollo.
English
Audio restoration has become increasingly significant in modern society, not
only due to the demand for high-quality auditory experiences enabled by
advanced playback devices, but also because the growing capabilities of
generative audio models necessitate high-fidelity audio. Typically, audio
restoration is defined as a task of predicting undistorted audio from damaged
input, often trained using a GAN framework to balance perception and
distortion. Since audio degradation is primarily concentrated in mid- and
high-frequency ranges, especially due to codecs, a key challenge lies in
designing a generator capable of preserving low-frequency information while
accurately reconstructing high-quality mid- and high-frequency content.
Inspired by recent advancements in high-sample-rate music separation, speech
enhancement, and audio codec models, we propose Apollo, a generative model
designed for high-sample-rate audio restoration. Apollo employs an explicit
frequency band split module to model the relationships between different
frequency bands, allowing for more coherent and higher-quality restored audio.
Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently
outperforms existing SR-GAN models across various bit rates and music genres,
particularly excelling in complex scenarios involving mixtures of multiple
instruments and vocals. Apollo significantly improves music restoration quality
while maintaining computational efficiency. The source code for Apollo is
publicly available at https://github.com/JusperLee/Apollo.Summary
AI-Generated Summary