ZeroSep: Scheid Alles in Audio zonder Training
ZeroSep: Separate Anything in Audio with Zero Training
May 29, 2025
Auteurs: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
cs.AI
Samenvatting
Audioscheiding is fundamenteel voor machines om complexe akoestische omgevingen te begrijpen en vormt de basis voor talrijke audio-toepassingen. Huidige, door diep leren aangestuurde benaderingen, hoewel krachtig, worden beperkt door de noodzaak van uitgebreide, taakspecifieke gelabelde data en hebben moeite om te generaliseren naar de enorme variabiliteit en open-set aard van real-world akoestische scènes. Geïnspireerd door het succes van generatieve foundation-modellen, onderzoeken we of vooraf getrainde tekstgestuurde audio-diffusiemodellen deze beperkingen kunnen overwinnen. We doen een verrassende ontdekking: zero-shot audioscheiding kan worden bereikt puur door een vooraf getraind tekstgestuurd audio-diffusiemodel onder de juiste configuratie. Onze methode, genaamd ZeroSep, werkt door het gemengde audio-signaal om te keren in de latente ruimte van het diffusiemodel en vervolgens tekstconditionering te gebruiken om het denoisingsproces te sturen om individuele bronnen te herstellen. Zonder enige taakspecifieke training of fine-tuning, hergebruikt ZeroSep het generatieve diffusiemodel voor een discriminerende scheidingstaak en ondersteunt het inherent open-set scenario's door zijn rijke tekstuele priors. ZeroSep is compatibel met een verscheidenheid aan vooraf getrainde tekstgestuurde audio-diffusiebackbones en levert sterke scheidingsprestaties op meerdere scheidingsbenchmarks, waarbij het zelfs gesuperviseerde methoden overtreft.
English
Audio source separation is fundamental for machines to understand complex
acoustic environments and underpins numerous audio applications. Current
supervised deep learning approaches, while powerful, are limited by the need
for extensive, task-specific labeled data and struggle to generalize to the
immense variability and open-set nature of real-world acoustic scenes. Inspired
by the success of generative foundation models, we investigate whether
pre-trained text-guided audio diffusion models can overcome these limitations.
We make a surprising discovery: zero-shot source separation can be achieved
purely through a pre-trained text-guided audio diffusion model under the right
configuration. Our method, named ZeroSep, works by inverting the mixed audio
into the diffusion model's latent space and then using text conditioning to
guide the denoising process to recover individual sources. Without any
task-specific training or fine-tuning, ZeroSep repurposes the generative
diffusion model for a discriminative separation task and inherently supports
open-set scenarios through its rich textual priors. ZeroSep is compatible with
a variety of pre-trained text-guided audio diffusion backbones and delivers
strong separation performance on multiple separation benchmarks, surpassing
even supervised methods.