SoloSpeech: Повышение разборчивости и качества целевой речи с использованием каскадного генеративного конвейера
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
May 25, 2025
Авторы: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak
cs.AI
Аннотация
Задача выделения целевой речи (Target Speech Extraction, TSE) заключается в изоляции голоса целевого говорящего из смеси нескольких голосов с использованием специфических для говорящего признаков, которые обычно предоставляются в виде вспомогательного аудио (так называемого cue audio). Хотя последние достижения в области TSE в основном основываются на дискриминативных моделях, обеспечивающих высокое перцептивное качество, такие модели часто вносят нежелательные артефакты, снижают естественность звучания и чувствительны к расхождениям между условиями обучения и тестирования. С другой стороны, генеративные модели для TSE отстают по перцептивному качеству и разборчивости. Для решения этих проблем мы представляем SoloSpeech — новый каскадный генеративный подход, который объединяет процессы сжатия, извлечения, восстановления и коррекции. SoloSpeech включает в себя экстрактор целевой речи, не требующий использования эмбеддингов говорящего, который использует условную информацию из латентного пространства cue audio, согласуя его с латентным пространством смешанного аудио, чтобы избежать несоответствий. Протестированный на широко используемом наборе данных Libri2Mix, SoloSpeech достигает нового уровня разборчивости и качества в задачах выделения целевой речи и разделения речи, демонстрируя исключительную обобщаемость на данных из других доменов и в реальных сценариях.
English
Target Speech Extraction (TSE) aims to isolate a target speaker's voice from
a mixture of multiple speakers by leveraging speaker-specific cues, typically
provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in
TSE have primarily employed discriminative models that offer high perceptual
quality, these models often introduce unwanted artifacts, reduce naturalness,
and are sensitive to discrepancies between training and testing environments.
On the other hand, generative models for TSE lag in perceptual quality and
intelligibility. To address these challenges, we present SoloSpeech, a novel
cascaded generative pipeline that integrates compression, extraction,
reconstruction, and correction processes. SoloSpeech features a
speaker-embedding-free target extractor that utilizes conditional information
from the cue audio's latent space, aligning it with the mixture audio's latent
space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset,
SoloSpeech achieves the new state-of-the-art intelligibility and quality in
target speech extraction and speech separation tasks while demonstrating
exceptional generalization on out-of-domain data and real-world scenarios.