ChatPaper.aiChatPaper

SonicMaster : Vers une restauration et un mastering musical tout-en-un contrôlable

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

August 5, 2025
papers.authors: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
cs.AI

papers.abstract

Les enregistrements musicaux souffrent souvent de problèmes de qualité audio tels qu'une réverbération excessive, des distorsions, des saturations, des déséquilibres tonaux et une image stéréo rétrécie, en particulier lorsqu'ils sont réalisés dans des contextes non professionnels sans équipement spécialisé ni expertise. Ces problèmes sont généralement corrigés à l'aide d'outils spécialisés distincts et d'ajustements manuels. Dans cet article, nous présentons SonicMaster, le premier modèle génératif unifié pour la restauration et le mastering musical, capable de traiter un large spectre d'artefacts audio avec un contrôle basé sur le texte. SonicMaster est conditionné par des instructions en langage naturel pour appliquer des améliorations ciblées, ou peut fonctionner en mode automatique pour une restauration générale. Pour entraîner ce modèle, nous avons construit le jeu de données SonicMaster, un vaste ensemble de pistes dégradées et de haute qualité appariées, en simulant des types de dégradations courants avec dix-neuf fonctions de dégradation appartenant à cinq groupes d'amélioration : égalisation, dynamique, réverbération, amplitude et stéréo. Notre approche exploite un paradigme d'entraînement génératif par correspondance de flux pour apprendre une transformation audio qui mappe les entrées dégradées vers leurs versions nettoyées et masterisées, guidée par des prompts textuels. Les métriques objectives de qualité audio démontrent que SonicMaster améliore significativement la qualité sonore dans toutes les catégories d'artefacts. De plus, des tests d'écoute subjectifs confirment que les auditeurs préfèrent les sorties améliorées de SonicMaster par rapport à l'audio dégradé d'origine, soulignant l'efficacité de notre approche unifiée.
English
Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of audio artifacts with text-based control. SonicMaster is conditioned on natural language instructions to apply targeted enhancements, or can operate in an automatic mode for general restoration. To train this model, we construct the SonicMaster dataset, a large dataset of paired degraded and high-quality tracks by simulating common degradation types with nineteen degradation functions belonging to five enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our approach leverages a flow-matching generative training paradigm to learn an audio transformation that maps degraded inputs to their cleaned, mastered versions guided by text prompts. Objective audio quality metrics demonstrate that SonicMaster significantly improves sound quality across all artifact categories. Furthermore, subjective listening tests confirm that listeners prefer SonicMaster's enhanced outputs over the original degraded audio, highlighting the effectiveness of our unified approach.
PDF12August 7, 2025