ZeroSep: Separe Qualquer Coisa em Áudio sem Treinamento
ZeroSep: Separate Anything in Audio with Zero Training
May 29, 2025
Autores: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
cs.AI
Resumo
A separação de fontes de áudio é fundamental para que as máquinas compreendam ambientes acústicos complexos e sustenta inúmeras aplicações de áudio. As abordagens atuais de aprendizado profundo supervisionado, embora poderosas, são limitadas pela necessidade de dados rotulados extensos e específicos para cada tarefa, além de enfrentarem dificuldades para generalizar a imensa variabilidade e natureza de conjunto aberto das cenas acústicas do mundo real. Inspirados pelo sucesso dos modelos generativos de base, investigamos se modelos de difusão de áudio guiados por texto pré-treinados podem superar essas limitações. Fizemos uma descoberta surpreendente: a separação de fontes zero-shot pode ser alcançada puramente por meio de um modelo de difusão de áudio guiado por texto pré-treinado, sob a configuração correta. Nosso método, denominado ZeroSep, funciona invertendo o áudio misturado no espaço latente do modelo de difusão e, em seguida, usando o condicionamento textual para guiar o processo de remoção de ruído e recuperar as fontes individuais. Sem qualquer treinamento ou ajuste específico para a tarefa, o ZeroSep reaproveita o modelo generativo de difusão para uma tarefa discriminativa de separação e suporta inerentemente cenários de conjunto aberto por meio de seus ricos prévios textuais. O ZeroSep é compatível com uma variedade de backbones de modelos de difusão de áudio guiados por texto pré-treinados e oferece um forte desempenho de separação em vários benchmarks de separação, superando até mesmo métodos supervisionados.
English
Audio source separation is fundamental for machines to understand complex
acoustic environments and underpins numerous audio applications. Current
supervised deep learning approaches, while powerful, are limited by the need
for extensive, task-specific labeled data and struggle to generalize to the
immense variability and open-set nature of real-world acoustic scenes. Inspired
by the success of generative foundation models, we investigate whether
pre-trained text-guided audio diffusion models can overcome these limitations.
We make a surprising discovery: zero-shot source separation can be achieved
purely through a pre-trained text-guided audio diffusion model under the right
configuration. Our method, named ZeroSep, works by inverting the mixed audio
into the diffusion model's latent space and then using text conditioning to
guide the denoising process to recover individual sources. Without any
task-specific training or fine-tuning, ZeroSep repurposes the generative
diffusion model for a discriminative separation task and inherently supports
open-set scenarios through its rich textual priors. ZeroSep is compatible with
a variety of pre-trained text-guided audio diffusion backbones and delivers
strong separation performance on multiple separation benchmarks, surpassing
even supervised methods.