SoloSpeech: Verbetering van verstaanbaarheid en kwaliteit in doelgerichte spraakextractie via een gecascadeerd generatief pijplijnproces
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
May 25, 2025
Auteurs: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak
cs.AI
Samenvatting
Target Speech Extraction (TSE) heeft als doel de stem van een doelspreker te isoleren uit een mengsel van meerdere sprekers door gebruik te maken van sprekerspecifieke aanwijzingen, meestal geleverd als aanvullende audio (ook wel cue audio genoemd). Hoewel recente vooruitgang in TSE voornamelijk gebruikmaakt van discriminerende modellen die een hoge perceptuele kwaliteit bieden, introduceren deze modellen vaak ongewenste artefacten, verminderen ze de natuurlijkheid en zijn ze gevoelig voor verschillen tussen trainings- en testomgevingen. Aan de andere kant blijven generatieve modellen voor TSE achter in perceptuele kwaliteit en verstaanbaarheid. Om deze uitdagingen aan te pakken, presenteren we SoloSpeech, een nieuwe cascade-generatieve pijplijn die compressie, extractie, reconstructie en correctieprocessen integreert. SoloSpeech beschikt over een doelspreker-extractor zonder spreker-embedding die gebruikmaakt van conditionele informatie uit de latente ruimte van de cue audio, en deze afstemt op de latente ruimte van de mengaudio om mismatches te voorkomen. Geëvalueerd op de veelgebruikte Libri2Mix-dataset behaalt SoloSpeech de nieuwste state-of-the-art in verstaanbaarheid en kwaliteit voor doelspreker-extractie en spraakscheidings taken, terwijl het uitzonderlijke generalisatie vertoont op out-of-domain data en real-world scenario's.
English
Target Speech Extraction (TSE) aims to isolate a target speaker's voice from
a mixture of multiple speakers by leveraging speaker-specific cues, typically
provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in
TSE have primarily employed discriminative models that offer high perceptual
quality, these models often introduce unwanted artifacts, reduce naturalness,
and are sensitive to discrepancies between training and testing environments.
On the other hand, generative models for TSE lag in perceptual quality and
intelligibility. To address these challenges, we present SoloSpeech, a novel
cascaded generative pipeline that integrates compression, extraction,
reconstruction, and correction processes. SoloSpeech features a
speaker-embedding-free target extractor that utilizes conditional information
from the cue audio's latent space, aligning it with the mixture audio's latent
space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset,
SoloSpeech achieves the new state-of-the-art intelligibility and quality in
target speech extraction and speech separation tasks while demonstrating
exceptional generalization on out-of-domain data and real-world scenarios.