SoloSpeech: Mejora de la inteligibilidad y calidad en la extracción de voz objetivo mediante un pipeline generativo en cascada
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
May 25, 2025
Autores: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak
cs.AI
Resumen
La Extracción de Voz Objetivo (TSE, por sus siglas en inglés) tiene como objetivo aislar la voz de un hablante específico de una mezcla de múltiples hablantes aprovechando pistas específicas del hablante, generalmente proporcionadas como audio auxiliar (también conocido como audio de referencia). Aunque los avances recientes en TSE han empleado principalmente modelos discriminativos que ofrecen una alta calidad perceptual, estos modelos a menudo introducen artefactos no deseados, reducen la naturalidad y son sensibles a las discrepancias entre los entornos de entrenamiento y prueba. Por otro lado, los modelos generativos para TSE se quedan atrás en términos de calidad perceptual e inteligibilidad. Para abordar estos desafíos, presentamos SoloSpeech, una novedosa canalización generativa en cascada que integra procesos de compresión, extracción, reconstrucción y corrección. SoloSpeech incluye un extractor de objetivo libre de incrustaciones de hablante que utiliza información condicional del espacio latente del audio de referencia, alineándolo con el espacio latente del audio de mezcla para evitar desajustes. Evaluado en el conjunto de datos ampliamente utilizado Libri2Mix, SoloSpeech alcanza el nuevo estado del arte en inteligibilidad y calidad en tareas de extracción de voz objetivo y separación de habla, además de demostrar una generalización excepcional en datos fuera de dominio y escenarios del mundo real.
English
Target Speech Extraction (TSE) aims to isolate a target speaker's voice from
a mixture of multiple speakers by leveraging speaker-specific cues, typically
provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in
TSE have primarily employed discriminative models that offer high perceptual
quality, these models often introduce unwanted artifacts, reduce naturalness,
and are sensitive to discrepancies between training and testing environments.
On the other hand, generative models for TSE lag in perceptual quality and
intelligibility. To address these challenges, we present SoloSpeech, a novel
cascaded generative pipeline that integrates compression, extraction,
reconstruction, and correction processes. SoloSpeech features a
speaker-embedding-free target extractor that utilizes conditional information
from the cue audio's latent space, aligning it with the mixture audio's latent
space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset,
SoloSpeech achieves the new state-of-the-art intelligibility and quality in
target speech extraction and speech separation tasks while demonstrating
exceptional generalization on out-of-domain data and real-world scenarios.Summary
AI-Generated Summary