ChatPaper.aiChatPaper

Apollo: Band-sequentie modellering voor hoogwaardig audiorestauratie

Apollo: Band-sequence Modeling for High-Quality Audio Restoration

September 13, 2024
Auteurs: Kai Li, Yi Luo
cs.AI

Samenvatting

Audiorestauratie is steeds belangrijker geworden in de moderne samenleving, niet alleen vanwege de vraag naar hoogwaardige auditieve ervaringen mogelijk gemaakt door geavanceerde afspeelapparaten, maar ook omdat de groeiende mogelijkheden van generatieve audiomodellen hoogwaardige audio vereisen. Over het algemeen wordt audiorestauratie gedefinieerd als een taak om onvervormde audio te voorspellen van beschadigde invoer, vaak getraind met behulp van een GAN-framework om perceptie en vervorming in balans te brengen. Aangezien audiodegradatie voornamelijk geconcentreerd is in het midden- en hoogfrequente bereik, vooral door codecs, ligt de belangrijkste uitdaging in het ontwerpen van een generator die in staat is om laagfrequente informatie te behouden terwijl hij nauwkeurig hoogwaardige midden- en hoogfrequente inhoud reconstrueert. Geïnspireerd door recente ontwikkelingen in muziekscheiding met hoge samplefrequentie, spraakverbetering en audiocodecmodellen, stellen we Apollo voor, een generatief model ontworpen voor audiorestauratie met hoge samplefrequentie. Apollo maakt gebruik van een expliciete frequentieband splitsingsmodule om de relaties tussen verschillende frequentiebanden te modelleren, waardoor meer coherente en hogere kwaliteit herstelde audio mogelijk is. Geëvalueerd op de MUSDB18-HQ en MoisesDB datasets, presteert Apollo consequent beter dan bestaande SR-GAN-modellen bij verschillende bitsnelheden en muziekgenres, vooral uitblinkend in complexe scenario's met mixen van meerdere instrumenten en vocalen. Apollo verbetert aanzienlijk de kwaliteit van muziekrestauratie met behoud van rekenkundige efficiëntie. De broncode voor Apollo is openbaar beschikbaar op https://github.com/JusperLee/Apollo.
English
Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.

Summary

AI-Generated Summary

PDF122November 16, 2024