SonicMaster: Hacia una restauración y masterización musical todo en uno controlable
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
August 5, 2025
Autores: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI
Resumen
Las grabaciones musicales a menudo sufren problemas de calidad de audio, como reverberación excesiva, distorsión, recorte, desequilibrios tonales y una imagen estéreo reducida, especialmente cuando se crean en entornos no profesionales sin equipo especializado o experiencia. Estos problemas suelen corregirse utilizando herramientas especializadas separadas y ajustes manuales. En este artículo, presentamos SonicMaster, el primer modelo generativo unificado para la restauración y masterización de música que aborda un amplio espectro de artefactos de audio con control basado en texto. SonicMaster se condiciona mediante instrucciones en lenguaje natural para aplicar mejoras específicas, o puede operar en un modo automático para la restauración general. Para entrenar este modelo, construimos el conjunto de datos SonicMaster, un gran conjunto de datos de pistas degradadas y de alta calidad emparejadas, simulando tipos comunes de degradación con diecinueve funciones de degradación pertenecientes a cinco grupos de mejoras: ecualización, dinámica, reverberación, amplitud y estéreo. Nuestro enfoque aprovecha un paradigma de entrenamiento generativo de flujo coincidente para aprender una transformación de audio que mapea entradas degradadas a sus versiones limpias y masterizadas guiadas por indicaciones de texto. Las métricas objetivas de calidad de audio demuestran que SonicMaster mejora significativamente la calidad del sonido en todas las categorías de artefactos. Además, las pruebas de escucha subjetivas confirman que los oyentes prefieren las salidas mejoradas de SonicMaster sobre el audio degradado original, destacando la efectividad de nuestro enfoque unificado.
English
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of audio artifacts with text-based
control. SonicMaster is conditioned on natural language instructions to apply
targeted enhancements, or can operate in an automatic mode for general
restoration. To train this model, we construct the SonicMaster dataset, a large
dataset of paired degraded and high-quality tracks by simulating common
degradation types with nineteen degradation functions belonging to five
enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our
approach leverages a flow-matching generative training paradigm to learn an
audio transformation that maps degraded inputs to their cleaned, mastered
versions guided by text prompts. Objective audio quality metrics demonstrate
that SonicMaster significantly improves sound quality across all artifact
categories. Furthermore, subjective listening tests confirm that listeners
prefer SonicMaster's enhanced outputs over the original degraded audio,
highlighting the effectiveness of our unified approach.