ChatPaper.aiChatPaper

SoloSpeech: Miglioramento dell'intelligibilità e della qualità nell'estrazione del parlato target attraverso una pipeline generativa a cascata

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

May 25, 2025
Autori: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak
cs.AI

Abstract

L'estrazione del parlato target (Target Speech Extraction, TSE) mira a isolare la voce di un parlante specifico da una miscela di più parlanti sfruttando indizi specifici del parlante, tipicamente forniti come audio ausiliario (noto anche come cue audio). Sebbene i recenti progressi nel TSE abbiano principalmente impiegato modelli discriminativi che offrono un'elevata qualità percettiva, questi modelli spesso introducono artefatti indesiderati, riducono la naturalezza e sono sensibili alle discrepanze tra gli ambienti di addestramento e test. D'altra parte, i modelli generativi per il TSE sono inferiori in termini di qualità percettiva e intelligibilità. Per affrontare queste sfide, presentiamo SoloSpeech, una nuova pipeline generativa a cascata che integra processi di compressione, estrazione, ricostruzione e correzione. SoloSpeech include un estrattore target privo di embedding del parlante che utilizza informazioni condizionali dallo spazio latente del cue audio, allineandolo con lo spazio latente dell'audio miscelato per prevenire disallineamenti. Valutato sul dataset ampiamente utilizzato Libri2Mix, SoloSpeech raggiunge il nuovo stato dell'arte in termini di intelligibilità e qualità nelle attività di estrazione del parlato target e separazione del parlato, dimostrando un'eccezionale generalizzazione su dati fuori dominio e scenari reali.
English
Target Speech Extraction (TSE) aims to isolate a target speaker's voice from a mixture of multiple speakers by leveraging speaker-specific cues, typically provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in TSE have primarily employed discriminative models that offer high perceptual quality, these models often introduce unwanted artifacts, reduce naturalness, and are sensitive to discrepancies between training and testing environments. On the other hand, generative models for TSE lag in perceptual quality and intelligibility. To address these challenges, we present SoloSpeech, a novel cascaded generative pipeline that integrates compression, extraction, reconstruction, and correction processes. SoloSpeech features a speaker-embedding-free target extractor that utilizes conditional information from the cue audio's latent space, aligning it with the mixture audio's latent space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset, SoloSpeech achieves the new state-of-the-art intelligibility and quality in target speech extraction and speech separation tasks while demonstrating exceptional generalization on out-of-domain data and real-world scenarios.
PDF42May 28, 2025