ChatPaper.aiChatPaper

SonicMaster: К созданию управляемого универсального решения для восстановления и мастеринга музыки

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

August 5, 2025
Авторы: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI

Аннотация

Музыкальные записи часто страдают от проблем с качеством звука, таких как чрезмерная реверберация, искажения, клиппинг, тональный дисбаланс и сужение стереоизображения, особенно если они создаются в непрофессиональных условиях без специализированного оборудования или опыта. Эти проблемы обычно исправляются с помощью отдельных специализированных инструментов и ручной настройки. В данной статье мы представляем SonicMaster — первую унифицированную генеративную модель для восстановления и мастеринга музыки, которая решает широкий спектр аудиоартефактов с текстовым управлением. SonicMaster адаптируется к инструкциям на естественном языке для применения целевых улучшений или может работать в автоматическом режиме для общего восстановления. Для обучения этой модели мы создали набор данных SonicMaster, содержащий большое количество пар деградированных и высококачественных треков, смоделированных с использованием девятнадцати функций деградации, относящихся к пяти группам улучшений: эквализация, динамика, реверберация, амплитуда и стерео. Наш подход использует парадигму генеративного обучения с согласованием потоков для изучения аудиопреобразования, которое отображает деградированные входные данные в их очищенные, мастерингованные версии, руководствуясь текстовыми подсказками. Объективные метрики качества звука демонстрируют, что SonicMaster значительно улучшает качество звука во всех категориях артефактов. Кроме того, субъективные тесты на прослушивание подтверждают, что слушатели предпочитают улучшенные выходные данные SonicMaster по сравнению с исходной деградированной аудиозаписью, что подчеркивает эффективность нашего унифицированного подхода.
English
Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of audio artifacts with text-based control. SonicMaster is conditioned on natural language instructions to apply targeted enhancements, or can operate in an automatic mode for general restoration. To train this model, we construct the SonicMaster dataset, a large dataset of paired degraded and high-quality tracks by simulating common degradation types with nineteen degradation functions belonging to five enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our approach leverages a flow-matching generative training paradigm to learn an audio transformation that maps degraded inputs to their cleaned, mastered versions guided by text prompts. Objective audio quality metrics demonstrate that SonicMaster significantly improves sound quality across all artifact categories. Furthermore, subjective listening tests confirm that listeners prefer SonicMaster's enhanced outputs over the original degraded audio, highlighting the effectiveness of our unified approach.
PDF12August 7, 2025