Stemphonic : Génération musicale multi-pistes flexible et simultanée

papers.abstract

La génération de pistes musicales, qui consiste à produire des clips audio d'instruments isolés et synchronisés musicalement, offre un potentiel de contrôle utilisateur accru et une meilleure adéquation avec les workflows des musiciens par rapport aux modèles conventionnels de texte-à-musique. Les approches existantes de génération de pistes, cependant, reposent soit sur des architectures fixes produisant un ensemble prédéfini de pistes en parallèle, soit ne génèrent qu'une piste à la fois, ce qui entraîne une inférence lente malgré la flexibilité dans la combinaison des pistes. Nous proposons Stemphonic, un cadre basé sur la diffusion et les flows qui surmonte ce compromis et génère un ensemble variable de pistes synchronisées en une seule passe d'inférence. Pendant l'entraînement, nous traitons chaque piste comme un élément de lot, regroupons les pistes synchronisées dans un lot et appliquons un bruit latent partagé à chaque groupe. Lors de l'inférence, nous utilisons un bruit latent initial partagé et des entrées textuelles spécifiques aux pistes pour générer des sorties multi-pistes synchronisées en une seule passe. Nous étendons ensuite notre approche pour permettre une génération conditionnelle multi-pistes en une passe et des contrôles d'activité par piste, permettant aux utilisateurs de générer itérativement et d'orchestrer le superposition temporelle d'un mix. Nous évaluons nos résultats sur plusieurs ensembles d'évaluation de pistes open-source et montrons que Stemphonic produit des sorties de meilleure qualité tout en accélérant le processus de génération de mix complet de 25 à 50 %. Démonstrations sur : https://stemphonic-demo.vercel.app.

English

Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.

Stemphonic : Génération musicale multi-pistes flexible et simultanée

Stemphonic: All-at-once Flexible Multi-stem Music Generation

papers.abstract

Support