ChatPaper.aiChatPaper

Apollo: Modelagem de Sequência de Banda para Restauração de Áudio de Alta Qualidade

Apollo: Band-sequence Modeling for High-Quality Audio Restoration

September 13, 2024
Autores: Kai Li, Yi Luo
cs.AI

Resumo

A restauração de áudio tornou-se cada vez mais significativa na sociedade moderna, não apenas devido à demanda por experiências auditivas de alta qualidade possibilitadas por dispositivos de reprodução avançados, mas também porque as crescentes capacidades dos modelos de áudio generativos exigem áudio de alta fidelidade. Tipicamente, a restauração de áudio é definida como uma tarefa de prever áudio não distorcido a partir de uma entrada danificada, frequentemente treinada usando um framework GAN para equilibrar percepção e distorção. Uma vez que a degradação de áudio está principalmente concentrada nas faixas de frequência média e alta, especialmente devido aos codecs, um desafio chave reside em projetar um gerador capaz de preservar informações de baixa frequência enquanto reconstrói com precisão conteúdo de alta qualidade de frequências médias e altas. Inspirado nos avanços recentes na separação de música de alta taxa de amostragem, aprimoramento de fala e modelos de codec de áudio, propomos o Apollo, um modelo generativo projetado para restauração de áudio de alta taxa de amostragem. O Apollo utiliza um módulo explícito de divisão de bandas de frequência para modelar as relações entre diferentes bandas de frequência, permitindo áudio restaurado mais coerente e de maior qualidade. Avaliado nos conjuntos de dados MUSDB18-HQ e MoisesDB, o Apollo supera consistentemente os modelos SR-GAN existentes em várias taxas de bits e gêneros musicais, destacando-se especialmente em cenários complexos envolvendo misturas de vários instrumentos e vocais. O Apollo melhora significativamente a qualidade de restauração de música mantendo a eficiência computacional. O código-fonte do Apollo está disponível publicamente em https://github.com/JusperLee/Apollo.
English
Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.

Summary

AI-Generated Summary

PDF122November 16, 2024