ChatPaper.aiChatPaper

SonicMaster: Op Weg Naar Beheersbare Alles-in-Één Muziekrestauratie en Mastering

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

August 5, 2025
Auteurs: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI

Samenvatting

Muziekopnames kampen vaak met problemen in de audiokwaliteit, zoals overmatige galm, vervorming, clipping, tonale onevenwichtigheden en een vernauwd stereobeeld, vooral wanneer ze worden gemaakt in niet-professionele omgevingen zonder gespecialiseerde apparatuur of expertise. Deze problemen worden doorgaans gecorrigeerd met behulp van afzonderlijke gespecialiseerde tools en handmatige aanpassingen. In dit artikel introduceren we SonicMaster, het eerste geïntegreerde generatieve model voor muziekrestauratie en mastering dat een breed scala aan audio-artefacten aanpakt met tekstgebaseerde controle. SonicMaster wordt gestuurd door natuurlijke taal-instructies om gerichte verbeteringen toe te passen, of kan werken in een automatische modus voor algemene restauratie. Om dit model te trainen, hebben we de SonicMaster-dataset samengesteld, een grote dataset van gepaarde gedegradeerde en hoogwaardige nummers door veelvoorkomende degradatietypes te simuleren met negentien degradatiefuncties behorend tot vijf verbeteringsgroepen: equalisatie, dynamiek, galm, amplitude en stereo. Onze aanpak maakt gebruik van een flow-matching generatief trainingsparadigma om een audiotransformatie te leren die gedegradeerde invoer mapt naar hun opgekuiste, gemasterde versies, geleid door tekstprompts. Objectieve audiokwaliteitsmetingen tonen aan dat SonicMaster de geluidskwaliteit aanzienlijk verbetert in alle artefactcategorieën. Bovendien bevestigen subjectieve luistertests dat luisteraars de verbeterde uitvoer van SonicMaster verkiezen boven de oorspronkelijke gedegradeerde audio, wat de effectiviteit van onze geïntegreerde aanpak benadrukt.
English
Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of audio artifacts with text-based control. SonicMaster is conditioned on natural language instructions to apply targeted enhancements, or can operate in an automatic mode for general restoration. To train this model, we construct the SonicMaster dataset, a large dataset of paired degraded and high-quality tracks by simulating common degradation types with nineteen degradation functions belonging to five enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our approach leverages a flow-matching generative training paradigm to learn an audio transformation that maps degraded inputs to their cleaned, mastered versions guided by text prompts. Objective audio quality metrics demonstrate that SonicMaster significantly improves sound quality across all artifact categories. Furthermore, subjective listening tests confirm that listeners prefer SonicMaster's enhanced outputs over the original degraded audio, highlighting the effectiveness of our unified approach.
PDF12August 7, 2025