ChatPaper.aiChatPaper

Apollo: Modellazione della sequenza di bande per il ripristino audio di alta qualità

Apollo: Band-sequence Modeling for High-Quality Audio Restoration

September 13, 2024
Autori: Kai Li, Yi Luo
cs.AI

Abstract

Il ripristino audio è diventato sempre più significativo nella società moderna, non solo a causa della domanda di esperienze uditive di alta qualità rese possibili dai dispositivi di riproduzione avanzati, ma anche perché le crescenti capacità dei modelli audio generativi richiedono un audio ad alta fedeltà. Tipicamente, il ripristino audio è definito come un compito di predire un audio non distorto da un input danneggiato, spesso addestrato utilizzando un framework GAN per bilanciare percezione e distorsione. Poiché il degrado audio è principalmente concentrato nelle gamme di frequenza medie e alte, specialmente a causa dei codec, una sfida chiave risiede nel progettare un generatore capace di preservare le informazioni a bassa frequenza mentre ricostruisce accuratamente contenuti di alta qualità a frequenze medie e alte. Ispirato ai recenti progressi nella separazione musicale ad alta frequenza di campionamento, miglioramento del parlato e modelli di codec audio, proponiamo Apollo, un modello generativo progettato per il ripristino audio ad alta frequenza di campionamento. Apollo impiega un modulo esplicito di suddivisione delle bande di frequenza per modellare le relazioni tra diverse bande di frequenza, consentendo un audio ripristinato più coerente e di alta qualità. Valutato sui set di dati MUSDB18-HQ e MoisesDB, Apollo supera costantemente i modelli SR-GAN esistenti su vari bit rate e generi musicali, eccellendo particolarmente in scenari complessi che coinvolgono mix di strumenti e voci multipli. Apollo migliora significativamente la qualità del ripristino musicale mantenendo al contempo l'efficienza computazionale. Il codice sorgente di Apollo è disponibile pubblicamente su https://github.com/JusperLee/Apollo.
English
Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.

Summary

AI-Generated Summary

PDF122November 16, 2024