ChatPaper.aiChatPaper

Apollo: Bandsequenzmodellierung für hochwertige Audiorestaurierung

Apollo: Band-sequence Modeling for High-Quality Audio Restoration

September 13, 2024
Autoren: Kai Li, Yi Luo
cs.AI

Zusammenfassung

Die Audiorestaurierung ist in der modernen Gesellschaft zunehmend bedeutend geworden, nicht nur aufgrund der Nachfrage nach hochwertigen Hörerlebnissen, die durch fortschrittliche Wiedergabegeräte ermöglicht werden, sondern auch, weil die wachsenden Fähigkeiten generativer Audio-Modelle eine hochwertige Audiowiedergabe erfordern. Typischerweise wird die Audiorestaurierung als Aufgabe definiert, unverzerrten Ton aus beschädigten Eingaben vorherzusagen, die oft mithilfe eines GAN-Frameworks trainiert werden, um Wahrnehmung und Verzerrung auszubalancieren. Da die Audiodegradation hauptsächlich in den mittleren und hohen Frequenzbereichen konzentriert ist, insbesondere aufgrund von Codecs, liegt eine zentrale Herausforderung darin, einen Generator zu entwerfen, der in der Lage ist, Niederfrequenzinformationen zu bewahren, während er mittel- und hochfrequente Inhalte präzise rekonstruiert. Inspiriert von den neuesten Fortschritten in der Musiktrennung mit hoher Abtastrate, der Sprachverbesserung und den Audio-Codec-Modellen schlagen wir Apollo vor, ein generatives Modell, das für die Audiorestaurierung mit hoher Abtastrate entwickelt wurde. Apollo verwendet ein explizites Frequenzband-Split-Modul, um die Beziehungen zwischen verschiedenen Frequenzbändern zu modellieren, was eine kohärentere und hochwertigere restaurierte Audioausgabe ermöglicht. Anhand der MUSDB18-HQ- und MoisesDB-Datensätze übertrifft Apollo kontinuierlich bestehende SR-GAN-Modelle bei verschiedenen Bitraten und Musikgenres und zeichnet sich insbesondere in komplexen Szenarien aus, die Mischungen aus mehreren Instrumenten und Gesang beinhalten. Apollo verbessert signifikant die Qualität der Musikrestaurierung und bewahrt dabei die Recheneffizienz. Der Quellcode für Apollo ist öffentlich verfügbar unter https://github.com/JusperLee/Apollo.
English
Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.

Summary

AI-Generated Summary

PDF122November 16, 2024