Apollo: Modelado de secuencia de bandas para la restauración de audio de alta calidad
Apollo: Band-sequence Modeling for High-Quality Audio Restoration
September 13, 2024
Autores: Kai Li, Yi Luo
cs.AI
Resumen
La restauración de audio se ha vuelto cada vez más significativa en la sociedad moderna, no solo debido a la demanda de experiencias auditivas de alta calidad habilitadas por dispositivos de reproducción avanzados, sino también porque las crecientes capacidades de los modelos de audio generativos requieren audio de alta fidelidad. Normalmente, la restauración de audio se define como una tarea de predecir audio sin distorsiones a partir de una entrada dañada, a menudo entrenada utilizando un marco GAN para equilibrar la percepción y la distorsión. Dado que la degradación del audio se concentra principalmente en los rangos de frecuencia media y alta, especialmente debido a los códecs, un desafío clave radica en diseñar un generador capaz de preservar la información de baja frecuencia mientras reconstruye con precisión contenido de alta calidad de frecuencia media y alta. Inspirado en los avances recientes en la separación de música de alta tasa de muestreo, mejora del habla y modelos de códecs de audio, proponemos Apollo, un modelo generativo diseñado para la restauración de audio de alta tasa de muestreo. Apollo emplea un módulo explícito de división de bandas de frecuencia para modelar las relaciones entre diferentes bandas de frecuencia, lo que permite un audio restaurado más coherente y de mayor calidad. Evaluado en los conjuntos de datos MUSDB18-HQ y MoisesDB, Apollo supera consistentemente a los modelos existentes de SR-GAN en varios índices de bits y géneros musicales, destacándose especialmente en escenarios complejos que involucran mezclas de múltiples instrumentos y voces. Apollo mejora significativamente la calidad de restauración de música manteniendo la eficiencia computacional. El código fuente de Apollo está disponible públicamente en https://github.com/JusperLee/Apollo.
English
Audio restoration has become increasingly significant in modern society, not
only due to the demand for high-quality auditory experiences enabled by
advanced playback devices, but also because the growing capabilities of
generative audio models necessitate high-fidelity audio. Typically, audio
restoration is defined as a task of predicting undistorted audio from damaged
input, often trained using a GAN framework to balance perception and
distortion. Since audio degradation is primarily concentrated in mid- and
high-frequency ranges, especially due to codecs, a key challenge lies in
designing a generator capable of preserving low-frequency information while
accurately reconstructing high-quality mid- and high-frequency content.
Inspired by recent advancements in high-sample-rate music separation, speech
enhancement, and audio codec models, we propose Apollo, a generative model
designed for high-sample-rate audio restoration. Apollo employs an explicit
frequency band split module to model the relationships between different
frequency bands, allowing for more coherent and higher-quality restored audio.
Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently
outperforms existing SR-GAN models across various bit rates and music genres,
particularly excelling in complex scenarios involving mixtures of multiple
instruments and vocals. Apollo significantly improves music restoration quality
while maintaining computational efficiency. The source code for Apollo is
publicly available at https://github.com/JusperLee/Apollo.Summary
AI-Generated Summary