ChatPaper.aiChatPaper

アポロ:高品質オーディオ復元のためのバンドシーケンスモデリング

Apollo: Band-sequence Modeling for High-Quality Audio Restoration

September 13, 2024
著者: Kai Li, Yi Luo
cs.AI

要旨

近年、オーディオの修復は現代社会においてますます重要となっています。これは、高度な再生デバイスによって可能になる高品質な聴覚体験への需要だけでなく、生成オーディオモデルの能力向上によって高忠実度のオーディオが必要とされるためです。一般的に、オーディオの修復は、損傷を受けた入力から歪みのないオーディオを予測する作業と定義され、しばしばGANフレームワークを使用して知覚と歪みをバランスよく訓練します。オーディオの劣化は主に中高周波数帯域に集中しているため、特にコーデックによるものがあり、低周波数情報を保持しつつ、高品質な中高周波数コンテンツを正確に再構築することができるジェネレータの設計において主要な課題があります。高サンプルレートの音楽分離、音声強調、およびオーディオコーデックモデルの最近の進歩に触発され、高サンプルレートのオーディオ修復用に設計された生成モデルであるApolloを提案します。Apolloは、異なる周波数帯域間の関係をモデリングするための明示的な周波数帯域分割モジュールを使用し、より一貫性があり高品質な修復オーディオを可能にします。MUSDB18-HQおよびMoisesDBデータセットで評価された結果、Apolloはさまざまなビットレートや音楽ジャンルにおいて既存のSR-GANモデルを一貫して上回り、特に複数の楽器やボーカルの混合物が含まれる複雑なシナリオにおいて優れた性能を発揮します。Apolloは、音楽の修復品質を大幅に向上させながら、計算効率を維持しています。Apolloのソースコードは、https://github.com/JusperLee/Apollo で公開されています。
English
Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.

Summary

AI-Generated Summary

PDF122November 16, 2024