SoloSpeech: Aprimorando a Inteligibilidade e Qualidade na Extração de Fala Alvo por meio de um Pipeline Generativo em Cascata
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
May 25, 2025
Autores: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak
cs.AI
Resumo
A Extração de Fala Alvo (TSE, do inglês Target Speech Extraction) visa isolar a voz de um falante específico de uma mistura de múltiplos falantes, utilizando pistas específicas do locutor, geralmente fornecidas como áudio auxiliar (também conhecido como áudio de referência). Embora os avanços recentes em TSE tenham empregado principalmente modelos discriminativos que oferecem alta qualidade perceptual, esses modelos frequentemente introduzem artefatos indesejados, reduzem a naturalidade e são sensíveis a discrepâncias entre os ambientes de treinamento e teste. Por outro lado, os modelos generativos para TSE ficam aquém em qualidade perceptual e inteligibilidade. Para enfrentar esses desafios, apresentamos o SoloSpeech, um novo pipeline generativo em cascata que integra processos de compressão, extração, reconstrução e correção. O SoloSpeech apresenta um extrator de fala alvo que dispensa embeddings de falantes, utilizando informações condicionais do espaço latente do áudio de referência e alinhando-o com o espaço latente do áudio misto para evitar incompatibilidades. Avaliado no amplamente utilizado conjunto de dados Libri2Mix, o SoloSpeech alcança o novo estado da arte em inteligibilidade e qualidade para tarefas de extração de fala alvo e separação de fala, demonstrando ainda uma generalização excepcional em dados fora do domínio e cenários do mundo real.
English
Target Speech Extraction (TSE) aims to isolate a target speaker's voice from
a mixture of multiple speakers by leveraging speaker-specific cues, typically
provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in
TSE have primarily employed discriminative models that offer high perceptual
quality, these models often introduce unwanted artifacts, reduce naturalness,
and are sensitive to discrepancies between training and testing environments.
On the other hand, generative models for TSE lag in perceptual quality and
intelligibility. To address these challenges, we present SoloSpeech, a novel
cascaded generative pipeline that integrates compression, extraction,
reconstruction, and correction processes. SoloSpeech features a
speaker-embedding-free target extractor that utilizes conditional information
from the cue audio's latent space, aligning it with the mixture audio's latent
space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset,
SoloSpeech achieves the new state-of-the-art intelligibility and quality in
target speech extraction and speech separation tasks while demonstrating
exceptional generalization on out-of-domain data and real-world scenarios.