SonicMaster: Verso un Controllo Integrato nel Ripristino e Mastering Musicale
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
August 5, 2025
Autori: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI
Abstract
Le registrazioni musicali spesso presentano problemi di qualità audio come eccessiva riverberazione, distorsione, clipping, squilibri tonali e un'immagine stereo ristretta, specialmente quando vengono create in contesti non professionali senza attrezzature specializzate o competenze specifiche. Questi problemi vengono tipicamente corretti utilizzando strumenti specializzati separati e aggiustamenti manuali. In questo articolo, introduciamo SonicMaster, il primo modello generativo unificato per il restauro e il mastering musicale che affronta un'ampia gamma di artefatti audio con controllo basato su testo. SonicMaster è condizionato da istruzioni in linguaggio naturale per applicare miglioramenti mirati, oppure può operare in modalità automatica per un restauro generale. Per addestrare questo modello, abbiamo costruito il dataset SonicMaster, un ampio dataset di tracce degradate e di alta qualità accoppiate, simulando tipi comuni di degrado con diciannove funzioni di degrado appartenenti a cinque gruppi di miglioramento: equalizzazione, dinamica, riverbero, ampiezza e stereo. Il nostro approccio sfrutta un paradigma di addestramento generativo basato su flow-matching per apprendere una trasformazione audio che mappa gli input degradati alle loro versioni ripulite e masterizzate guidate da prompt testuali. Le metriche oggettive di qualità audio dimostrano che SonicMaster migliora significativamente la qualità del suono in tutte le categorie di artefatti. Inoltre, test di ascolto soggettivi confermano che gli ascoltatori preferiscono le uscite migliorate di SonicMaster rispetto all'audio degradato originale, evidenziando l'efficacia del nostro approccio unificato.
English
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of audio artifacts with text-based
control. SonicMaster is conditioned on natural language instructions to apply
targeted enhancements, or can operate in an automatic mode for general
restoration. To train this model, we construct the SonicMaster dataset, a large
dataset of paired degraded and high-quality tracks by simulating common
degradation types with nineteen degradation functions belonging to five
enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our
approach leverages a flow-matching generative training paradigm to learn an
audio transformation that maps degraded inputs to their cleaned, mastered
versions guided by text prompts. Objective audio quality metrics demonstrate
that SonicMaster significantly improves sound quality across all artifact
categories. Furthermore, subjective listening tests confirm that listeners
prefer SonicMaster's enhanced outputs over the original degraded audio,
highlighting the effectiveness of our unified approach.