ZeroSep : Séparer n'importe quoi dans l'audio sans entraînement préalable
ZeroSep: Separate Anything in Audio with Zero Training
May 29, 2025
Auteurs: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
cs.AI
Résumé
La séparation de sources audio est fondamentale pour permettre aux machines de comprendre les environnements acoustiques complexes et constitue la base de nombreuses applications audio. Les approches actuelles d'apprentissage profond supervisé, bien que puissantes, sont limitées par la nécessité de disposer de grandes quantités de données étiquetées spécifiques à la tâche et peinent à généraliser face à l'immense variabilité et à la nature ouverte des scènes acoustiques du monde réel. Inspirés par le succès des modèles génératifs de fondation, nous explorons si les modèles de diffusion audio guidés par texte pré-entraînés peuvent surmonter ces limitations. Nous faisons une découverte surprenante : la séparation de sources en zero-shot peut être réalisée uniquement grâce à un modèle de diffusion audio guidé par texte pré-entraîné, sous la bonne configuration. Notre méthode, nommée ZeroSep, fonctionne en inversant l'audio mixé dans l'espace latent du modèle de diffusion, puis en utilisant le conditionnement textuel pour guider le processus de débruitage afin de récupérer les sources individuelles. Sans aucun entraînement ou ajustement spécifique à la tâche, ZeroSep réutilise le modèle de diffusion génératif pour une tâche de séparation discriminative et supporte intrinsèquement les scénarios ouverts grâce à ses riches connaissances textuelles préalables. ZeroSep est compatible avec une variété de modèles de diffusion audio guidés par texte pré-entraînés et offre des performances de séparation solides sur plusieurs benchmarks de séparation, surpassant même les méthodes supervisées.
English
Audio source separation is fundamental for machines to understand complex
acoustic environments and underpins numerous audio applications. Current
supervised deep learning approaches, while powerful, are limited by the need
for extensive, task-specific labeled data and struggle to generalize to the
immense variability and open-set nature of real-world acoustic scenes. Inspired
by the success of generative foundation models, we investigate whether
pre-trained text-guided audio diffusion models can overcome these limitations.
We make a surprising discovery: zero-shot source separation can be achieved
purely through a pre-trained text-guided audio diffusion model under the right
configuration. Our method, named ZeroSep, works by inverting the mixed audio
into the diffusion model's latent space and then using text conditioning to
guide the denoising process to recover individual sources. Without any
task-specific training or fine-tuning, ZeroSep repurposes the generative
diffusion model for a discriminative separation task and inherently supports
open-set scenarios through its rich textual priors. ZeroSep is compatible with
a variety of pre-trained text-guided audio diffusion backbones and delivers
strong separation performance on multiple separation benchmarks, surpassing
even supervised methods.Summary
AI-Generated Summary