ChatPaper.aiChatPaper

ZeroSep: Разделение любых аудиоданных без предварительного обучения

ZeroSep: Separate Anything in Audio with Zero Training

May 29, 2025
Авторы: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
cs.AI

Аннотация

Разделение аудиоисточников является фундаментальной задачей для машин, стремящихся понимать сложные акустические среды, и лежит в основе множества аудиоприложений. Современные подходы с использованием контролируемого глубокого обучения, хотя и мощные, ограничены необходимостью в обширных, специфичных для задачи размеченных данных и испытывают трудности с обобщением на огромную изменчивость и открытый характер реальных акустических сцен. Вдохновленные успехами генеративных базовых моделей, мы исследуем, могут ли предобученные аудиодиффузионные модели с текстовым управлением преодолеть эти ограничения. Мы делаем удивительное открытие: разделение источников без предварительного обучения (zero-shot) может быть достигнуто исключительно с помощью предобученной аудиодиффузионной модели с текстовым управлением при правильной конфигурации. Наш метод, названный ZeroSep, работает путем инвертирования смешанного аудио в латентное пространство диффузионной модели, а затем использует текстовое управление для направления процесса удаления шума с целью восстановления отдельных источников. Без какого-либо специфичного для задачи обучения или дообучения ZeroSep перепрофилирует генеративную диффузионную модель для задачи дискриминативного разделения и изначально поддерживает открытые сценарии благодаря своим богатым текстовым априорным знаниям. ZeroSep совместим с различными предобученными аудиодиффузионными моделями с текстовым управлением и демонстрирует высокую производительность на множестве бенчмарков для разделения, превосходя даже контролируемые методы.
English
Audio source separation is fundamental for machines to understand complex acoustic environments and underpins numerous audio applications. Current supervised deep learning approaches, while powerful, are limited by the need for extensive, task-specific labeled data and struggle to generalize to the immense variability and open-set nature of real-world acoustic scenes. Inspired by the success of generative foundation models, we investigate whether pre-trained text-guided audio diffusion models can overcome these limitations. We make a surprising discovery: zero-shot source separation can be achieved purely through a pre-trained text-guided audio diffusion model under the right configuration. Our method, named ZeroSep, works by inverting the mixed audio into the diffusion model's latent space and then using text conditioning to guide the denoising process to recover individual sources. Without any task-specific training or fine-tuning, ZeroSep repurposes the generative diffusion model for a discriminative separation task and inherently supports open-set scenarios through its rich textual priors. ZeroSep is compatible with a variety of pre-trained text-guided audio diffusion backbones and delivers strong separation performance on multiple separation benchmarks, surpassing even supervised methods.

Summary

AI-Generated Summary

PDF72May 30, 2025