Аполлон: Моделирование последовательности полос для высококачественного восстановления аудио
Apollo: Band-sequence Modeling for High-Quality Audio Restoration
September 13, 2024
Авторы: Kai Li, Yi Luo
cs.AI
Аннотация
Восстановление аудио стало все более значимым в современном обществе, не только из-за спроса на качественные звуковые впечатления, обеспечиваемые передовыми устройствами воспроизведения, но также потому, что растущие возможности генеративных аудиомоделей требуют высококачественного звука. Обычно восстановление аудио определяется как задача предсказания недеформированного звука по поврежденному входу, зачастую обучаемая с использованием GAN-структуры для балансировки восприятия и деформации. Поскольку деградация аудио в основном сосредоточена в средних и высоких частотных диапазонах, особенно из-за кодеков, ключевая проблема заключается в создании генератора, способного сохранять информацию о низких частотах, обеспечивая точную реконструкцию высококачественного содержания средних и высоких частот. Вдохновленные недавними достижениями в разделении музыки с высокой частотой дискретизации, улучшении речи и моделях аудиокодеков, мы предлагаем Apollo, генеративную модель, разработанную для восстановления аудио с высокой частотой дискретизации. Apollo использует явный модуль разделения частотных полос для моделирования взаимосвязей между различными частотными полосами, что позволяет получить более последовательное и высококачественное восстановленное аудио. Оцененный на наборах данных MUSDB18-HQ и MoisesDB, Apollo последовательно превосходит существующие модели SR-GAN при различных битрейтах и музыкальных жанрах, особенно выделяясь в сложных сценариях с смешанными звуками нескольких инструментов и вокала. Apollo значительно улучшает качество восстановления музыки, сохраняя вычислительную эффективность. Исходный код Apollo доступен публично по адресу https://github.com/JusperLee/Apollo.
English
Audio restoration has become increasingly significant in modern society, not
only due to the demand for high-quality auditory experiences enabled by
advanced playback devices, but also because the growing capabilities of
generative audio models necessitate high-fidelity audio. Typically, audio
restoration is defined as a task of predicting undistorted audio from damaged
input, often trained using a GAN framework to balance perception and
distortion. Since audio degradation is primarily concentrated in mid- and
high-frequency ranges, especially due to codecs, a key challenge lies in
designing a generator capable of preserving low-frequency information while
accurately reconstructing high-quality mid- and high-frequency content.
Inspired by recent advancements in high-sample-rate music separation, speech
enhancement, and audio codec models, we propose Apollo, a generative model
designed for high-sample-rate audio restoration. Apollo employs an explicit
frequency band split module to model the relationships between different
frequency bands, allowing for more coherent and higher-quality restored audio.
Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently
outperforms existing SR-GAN models across various bit rates and music genres,
particularly excelling in complex scenarios involving mixtures of multiple
instruments and vocals. Apollo significantly improves music restoration quality
while maintaining computational efficiency. The source code for Apollo is
publicly available at https://github.com/JusperLee/Apollo.Summary
AI-Generated Summary