ZeroSep: Separar cualquier cosa en audio sin necesidad de entrenamiento
ZeroSep: Separate Anything in Audio with Zero Training
May 29, 2025
Autores: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
cs.AI
Resumen
La separación de fuentes de audio es fundamental para que las máquinas comprendan entornos acústicos complejos y sustenta numerosas aplicaciones de audio. Los enfoques actuales de aprendizaje profundo supervisado, aunque potentes, están limitados por la necesidad de datos etiquetados extensos y específicos de la tarea, y tienen dificultades para generalizar a la inmensa variabilidad y naturaleza de conjunto abierto de las escenas acústicas del mundo real. Inspirados por el éxito de los modelos fundacionales generativos, investigamos si los modelos de difusión de audio guiados por texto preentrenados pueden superar estas limitaciones. Hacemos un descubrimiento sorprendente: la separación de fuentes en modo cero-shot puede lograrse únicamente a través de un modelo de difusión de audio guiado por texto preentrenado bajo la configuración adecuada. Nuestro método, denominado ZeroSep, funciona invirtiendo el audio mezclado en el espacio latente del modelo de difusión y luego utilizando el condicionamiento textual para guiar el proceso de eliminación de ruido y recuperar las fuentes individuales. Sin ningún entrenamiento o ajuste específico de la tarea, ZeroSep reutiliza el modelo de difusión generativo para una tarea de separación discriminativa y admite inherentemente escenarios de conjunto abierto a través de sus ricos conocimientos previos textuales. ZeroSep es compatible con una variedad de arquitecturas preentrenadas de difusión de audio guiadas por texto y ofrece un fuerte rendimiento de separación en múltiples benchmarks de separación, superando incluso a métodos supervisados.
English
Audio source separation is fundamental for machines to understand complex
acoustic environments and underpins numerous audio applications. Current
supervised deep learning approaches, while powerful, are limited by the need
for extensive, task-specific labeled data and struggle to generalize to the
immense variability and open-set nature of real-world acoustic scenes. Inspired
by the success of generative foundation models, we investigate whether
pre-trained text-guided audio diffusion models can overcome these limitations.
We make a surprising discovery: zero-shot source separation can be achieved
purely through a pre-trained text-guided audio diffusion model under the right
configuration. Our method, named ZeroSep, works by inverting the mixed audio
into the diffusion model's latent space and then using text conditioning to
guide the denoising process to recover individual sources. Without any
task-specific training or fine-tuning, ZeroSep repurposes the generative
diffusion model for a discriminative separation task and inherently supports
open-set scenarios through its rich textual priors. ZeroSep is compatible with
a variety of pre-trained text-guided audio diffusion backbones and delivers
strong separation performance on multiple separation benchmarks, surpassing
even supervised methods.Summary
AI-Generated Summary