SonicMaster: Auf dem Weg zu kontrollierbarer All-in-One-Musikrestaurierung und -mastering
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
August 5, 2025
papers.authors: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI
papers.abstract
Musikaufnahmen leiden oft unter Audioqualitätsproblemen wie übermäßigem Hall, Verzerrungen, Clipping, tonalen Ungleichgewichten und einem verengten Stereobild, insbesondere wenn sie in nicht-professionellen Umgebungen ohne spezielle Ausrüstung oder Expertise erstellt werden. Diese Probleme werden typischerweise mit separaten spezialisierten Tools und manuellen Anpassungen korrigiert. In diesem Artikel stellen wir SonicMaster vor, das erste einheitliche generative Modell für die Musikrestaurierung und -mastering, das ein breites Spektrum von Audioartefakten mit textbasierter Steuerung behandelt. SonicMaster wird durch natürliche Sprachbefehle konditioniert, um gezielte Verbesserungen vorzunehmen, oder kann in einem automatischen Modus für die allgemeine Restaurierung arbeiten. Um dieses Modell zu trainieren, erstellen wir den SonicMaster-Datensatz, einen großen Datensatz von gepaarten degradierten und hochwertigen Tracks, indem wir häufige Degradationstypen mit neunzehn Degradationsfunktionen aus fünf Verbesserungsgruppen simulieren: Equalization, Dynamik, Hall, Amplitude und Stereo. Unser Ansatz nutzt ein Flow-Matching-generatives Trainingsparadigma, um eine Audiotransformation zu erlernen, die degradierte Eingaben in ihre bereinigten, gemasterten Versionen abbildet, die durch Textbefehle gesteuert werden. Objektive Audioqualitätsmetriken zeigen, dass SonicMaster die Klangqualität in allen Artefaktkategorien erheblich verbessert. Darüber hinaus bestätigen subjektive Hörtests, dass Hörer die verbesserten Ausgaben von SonicMaster gegenüber dem ursprünglichen degradierten Audio bevorzugen, was die Effektivität unseres einheitlichen Ansatzes unterstreicht.
English
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of audio artifacts with text-based
control. SonicMaster is conditioned on natural language instructions to apply
targeted enhancements, or can operate in an automatic mode for general
restoration. To train this model, we construct the SonicMaster dataset, a large
dataset of paired degraded and high-quality tracks by simulating common
degradation types with nineteen degradation functions belonging to five
enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our
approach leverages a flow-matching generative training paradigm to learn an
audio transformation that maps degraded inputs to their cleaned, mastered
versions guided by text prompts. Objective audio quality metrics demonstrate
that SonicMaster significantly improves sound quality across all artifact
categories. Furthermore, subjective listening tests confirm that listeners
prefer SonicMaster's enhanced outputs over the original degraded audio,
highlighting the effectiveness of our unified approach.