SonicMaster: Rumo a um Sistema Integrado e Controlável para Restauração e Masterização Musical
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
August 5, 2025
Autores: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI
Resumo
Gravações musicais frequentemente apresentam problemas de qualidade de áudio, como reverberação excessiva, distorção, clipping, desequilíbrios tonais e uma imagem estéreo reduzida, especialmente quando criadas em ambientes não profissionais sem equipamentos especializados ou expertise. Esses problemas são tipicamente corrigidos usando ferramentas especializadas separadas e ajustes manuais. Neste artigo, apresentamos o SonicMaster, o primeiro modelo generativo unificado para restauração e masterização de música que aborda um amplo espectro de artefatos de áudio com controle baseado em texto. O SonicMaster é condicionado por instruções em linguagem natural para aplicar melhorias direcionadas ou pode operar em um modo automático para restauração geral. Para treinar este modelo, construímos o conjunto de dados SonicMaster, um grande conjunto de dados de faixas degradadas e de alta qualidade emparelhadas, simulando tipos comuns de degradação com dezenove funções de degradação pertencentes a cinco grupos de aprimoramento: equalização, dinâmica, reverberação, amplitude e estéreo. Nossa abordagem utiliza um paradigma de treinamento generativo de correspondência de fluxo para aprender uma transformação de áudio que mapeia entradas degradadas para suas versões limpas e masterizadas, guiadas por prompts de texto. Métricas objetivas de qualidade de áudio demonstram que o SonicMaster melhora significativamente a qualidade do som em todas as categorias de artefatos. Além disso, testes de escuta subjetivos confirmam que os ouvintes preferem as saídas aprimoradas do SonicMaster em relação ao áudio degradado original, destacando a eficácia de nossa abordagem unificada.
English
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of audio artifacts with text-based
control. SonicMaster is conditioned on natural language instructions to apply
targeted enhancements, or can operate in an automatic mode for general
restoration. To train this model, we construct the SonicMaster dataset, a large
dataset of paired degraded and high-quality tracks by simulating common
degradation types with nineteen degradation functions belonging to five
enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our
approach leverages a flow-matching generative training paradigm to learn an
audio transformation that maps degraded inputs to their cleaned, mastered
versions guided by text prompts. Objective audio quality metrics demonstrate
that SonicMaster significantly improves sound quality across all artifact
categories. Furthermore, subjective listening tests confirm that listeners
prefer SonicMaster's enhanced outputs over the original degraded audio,
highlighting the effectiveness of our unified approach.