ZeroSep: Trennen von allem in Audio ohne Training
ZeroSep: Separate Anything in Audio with Zero Training
May 29, 2025
Autoren: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
cs.AI
Zusammenfassung
Die Quellentrennung von Audiosignalen ist grundlegend dafür, dass Maschinen komplexe akustische Umgebungen verstehen können, und bildet die Basis für zahlreiche Audioanwendungen. Aktuelle überwachte Deep-Learning-Ansätze sind zwar leistungsstark, jedoch durch den Bedarf an umfangreichen, aufgabenspezifisch gelabelten Daten eingeschränkt und haben Schwierigkeiten, sich an die immense Variabilität und die offene Natur realer akustischer Szenen anzupassen. Inspiriert durch den Erfolg generativer Foundation-Modelle untersuchen wir, ob vortrainierte textgesteuerte Audio-Diffusionsmodelle diese Einschränkungen überwinden können. Wir machen eine überraschende Entdeckung: Zero-Shot-Quellentrennung kann allein durch ein vortrainiertes textgesteuertes Audio-Diffusionsmodell unter der richtigen Konfiguration erreicht werden. Unser Verfahren, genannt ZeroSep, funktioniert, indem das gemischte Audio in den latenten Raum des Diffusionsmodells invertiert wird und dann die Textkonditionierung verwendet wird, um den Entrauschungsprozess zu steuern und einzelne Quellen wiederherzustellen. Ohne aufgabenspezifisches Training oder Feinabstimmung nutzt ZeroSep das generative Diffusionsmodell für eine diskriminative Trennaufgabe und unterstützt von Natur aus offene Szenarien durch seine reichhaltigen textuellen Prioritäten. ZeroSep ist mit einer Vielzahl von vortrainierten textgesteuerten Audio-Diffusions-Backbones kompatibel und liefert eine starke Trennleistung auf mehreren Trenn-Benchmarks, die sogar überwachte Methoden übertrifft.
English
Audio source separation is fundamental for machines to understand complex
acoustic environments and underpins numerous audio applications. Current
supervised deep learning approaches, while powerful, are limited by the need
for extensive, task-specific labeled data and struggle to generalize to the
immense variability and open-set nature of real-world acoustic scenes. Inspired
by the success of generative foundation models, we investigate whether
pre-trained text-guided audio diffusion models can overcome these limitations.
We make a surprising discovery: zero-shot source separation can be achieved
purely through a pre-trained text-guided audio diffusion model under the right
configuration. Our method, named ZeroSep, works by inverting the mixed audio
into the diffusion model's latent space and then using text conditioning to
guide the denoising process to recover individual sources. Without any
task-specific training or fine-tuning, ZeroSep repurposes the generative
diffusion model for a discriminative separation task and inherently supports
open-set scenarios through its rich textual priors. ZeroSep is compatible with
a variety of pre-trained text-guided audio diffusion backbones and delivers
strong separation performance on multiple separation benchmarks, surpassing
even supervised methods.Summary
AI-Generated Summary