ZeroSep: Separare qualsiasi elemento audio senza addestramento
ZeroSep: Separate Anything in Audio with Zero Training
May 29, 2025
Autori: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
cs.AI
Abstract
La separazione delle sorgenti audio è fondamentale affinché le macchine possano comprendere ambienti acustici complessi e costituisce la base per numerose applicazioni audio. Gli attuali approcci di deep learning supervisionato, sebbene potenti, sono limitati dalla necessità di dati etichettati estesi e specifici per il compito e faticano a generalizzare l'enorme variabilità e la natura open-set delle scene acustiche del mondo reale. Ispirati dal successo dei modelli generativi di base, abbiamo indagato se i modelli di diffusione audio guidati da testo pre-addestrati possano superare queste limitazioni. Abbiamo fatto una scoperta sorprendente: la separazione delle sorgenti zero-shot può essere ottenuta esclusivamente attraverso un modello di diffusione audio guidato da testo pre-addestrato, con la giusta configurazione. Il nostro metodo, denominato ZeroSep, funziona invertendo l'audio misto nello spazio latente del modello di diffusione e utilizzando poi il condizionamento testuale per guidare il processo di denoising al fine di recuperare le singole sorgenti. Senza alcun addestramento o fine-tuning specifico per il compito, ZeroSep ripropone il modello generativo di diffusione per un'attività discriminativa di separazione e supporta intrinsecamente scenari open-set grazie ai suoi ricchi prior testuali. ZeroSep è compatibile con una varietà di modelli di diffusione audio guidati da testo pre-addestrati e offre prestazioni di separazione solide su molteplici benchmark di separazione, superando persino i metodi supervisionati.
English
Audio source separation is fundamental for machines to understand complex
acoustic environments and underpins numerous audio applications. Current
supervised deep learning approaches, while powerful, are limited by the need
for extensive, task-specific labeled data and struggle to generalize to the
immense variability and open-set nature of real-world acoustic scenes. Inspired
by the success of generative foundation models, we investigate whether
pre-trained text-guided audio diffusion models can overcome these limitations.
We make a surprising discovery: zero-shot source separation can be achieved
purely through a pre-trained text-guided audio diffusion model under the right
configuration. Our method, named ZeroSep, works by inverting the mixed audio
into the diffusion model's latent space and then using text conditioning to
guide the denoising process to recover individual sources. Without any
task-specific training or fine-tuning, ZeroSep repurposes the generative
diffusion model for a discriminative separation task and inherently supports
open-set scenarios through its rich textual priors. ZeroSep is compatible with
a variety of pre-trained text-guided audio diffusion backbones and delivers
strong separation performance on multiple separation benchmarks, surpassing
even supervised methods.