SonicMaster: 통제 가능한 올인원 음악 복원 및 마스터링을 향하여
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
August 5, 2025
저자: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI
초록
음악 녹음은 특히 전문 장비나 지식이 없는 비전문적인 환경에서 제작될 경우 과도한 리버브, 왜곡, 클리핑, 음색 불균형, 좁아진 스테레오 이미지와 같은 오디오 품질 문제를 자주 겪습니다. 이러한 문제들은 일반적으로 별도의 전문 도구와 수동 조정을 통해 수정됩니다. 본 논문에서는 텍스트 기반 제어를 통해 다양한 오디오 결함을 해결하는 첫 번째 통합 생성 모델인 SonicMaster를 소개합니다. SonicMaster는 자연어 지시에 따라 특정 개선을 적용하거나 일반 복원을 위한 자동 모드로 작동할 수 있습니다. 이 모델을 학습시키기 위해 우리는 다섯 가지 개선 그룹(이퀄라이제이션, 다이내믹스, 리버브, 진폭, 스테레오)에 속하는 19가지 열화 함수를 사용하여 일반적인 열화 유형을 시뮬레이션한 대규모 데이터셋인 SonicMaster 데이터셋을 구축했습니다. 우리의 접근 방식은 플로우 매칭 생성 학습 패러다임을 활용하여 텍스트 프롬프트에 따라 열화된 입력을 정제된 마스터링 버전으로 매핑하는 오디오 변환을 학습합니다. 객관적인 오디오 품질 지표는 SonicMaster가 모든 결함 범주에서 음질을 크게 개선함을 보여줍니다. 또한, 주관적 청취 테스트에서도 청취자들이 원래의 열화된 오디오보다 SonicMaster의 개선된 출력을 선호하는 것으로 나타나 우리의 통합 접근 방식의 효과를 입증했습니다.
English
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of audio artifacts with text-based
control. SonicMaster is conditioned on natural language instructions to apply
targeted enhancements, or can operate in an automatic mode for general
restoration. To train this model, we construct the SonicMaster dataset, a large
dataset of paired degraded and high-quality tracks by simulating common
degradation types with nineteen degradation functions belonging to five
enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our
approach leverages a flow-matching generative training paradigm to learn an
audio transformation that maps degraded inputs to their cleaned, mastered
versions guided by text prompts. Objective audio quality metrics demonstrate
that SonicMaster significantly improves sound quality across all artifact
categories. Furthermore, subjective listening tests confirm that listeners
prefer SonicMaster's enhanced outputs over the original degraded audio,
highlighting the effectiveness of our unified approach.