ChatPaper.aiChatPaper

SoloSpeech: Verbesserung der Verständlichkeit und Qualität bei der Zielsprachextraktion durch eine kaskadierte generative Pipeline

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

May 25, 2025
Autoren: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak
cs.AI

Zusammenfassung

Target Speech Extraction (TSE) zielt darauf ab, die Stimme eines Zielsprechers aus einer Mischung mehrerer Sprecher zu isolieren, indem spezifische Sprechermerkmale genutzt werden, die typischerweise als zusätzliches Audio (auch bekannt als Cue-Audio) bereitgestellt werden. Obwohl die jüngsten Fortschritte in TSE hauptsächlich diskriminative Modelle verwendet haben, die eine hohe wahrgenommene Qualität bieten, führen diese Modelle oft unerwünschte Artefakte ein, verringern die Natürlichkeit und sind empfindlich gegenüber Diskrepanzen zwischen Trainings- und Testumgebungen. Auf der anderen Seite hinken generative Modelle für TSE in Bezug auf wahrgenommene Qualität und Verständlichkeit hinterher. Um diese Herausforderungen zu bewältigen, präsentieren wir SoloSpeech, eine neuartige kaskadierte generative Pipeline, die Kompression, Extraktion, Rekonstruktion und Korrekturprozesse integriert. SoloSpeech verfügt über einen zielsprecher-embedding-freien Extraktor, der bedingte Informationen aus dem latenten Raum des Cue-Audios nutzt und diesen mit dem latenten Raum des Mischaudios abstimmt, um Fehlanpassungen zu verhindern. Bewertet auf dem weit verbreiteten Libri2Mix-Datensatz, erreicht SoloSpeech den neuen Stand der Technik in Bezug auf Verständlichkeit und Qualität bei der Zielsprachextraktion und Sprachseparation und zeigt dabei eine außergewöhnliche Generalisierung auf Daten außerhalb des Trainingsbereichs und in realen Szenarien.
English
Target Speech Extraction (TSE) aims to isolate a target speaker's voice from a mixture of multiple speakers by leveraging speaker-specific cues, typically provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in TSE have primarily employed discriminative models that offer high perceptual quality, these models often introduce unwanted artifacts, reduce naturalness, and are sensitive to discrepancies between training and testing environments. On the other hand, generative models for TSE lag in perceptual quality and intelligibility. To address these challenges, we present SoloSpeech, a novel cascaded generative pipeline that integrates compression, extraction, reconstruction, and correction processes. SoloSpeech features a speaker-embedding-free target extractor that utilizes conditional information from the cue audio's latent space, aligning it with the mixture audio's latent space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset, SoloSpeech achieves the new state-of-the-art intelligibility and quality in target speech extraction and speech separation tasks while demonstrating exceptional generalization on out-of-domain data and real-world scenarios.

Summary

AI-Generated Summary

PDF42May 28, 2025