ChatPaper.aiChatPaper

SoloSpeech : Amélioration de l'intelligibilité et de la qualité dans l'extraction de la parole cible grâce à un pipeline génératif en cascade

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

May 25, 2025
Auteurs: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak
cs.AI

Résumé

L'extraction de parole cible (Target Speech Extraction, TSE) vise à isoler la voix d'un locuteur cible d'un mélange de plusieurs locuteurs en exploitant des indices spécifiques au locuteur, généralement fournis sous forme d'audio auxiliaire (ou audio de référence). Bien que les avancées récentes en TSE aient principalement utilisé des modèles discriminatifs offrant une qualité perceptuelle élevée, ces modèles introduisent souvent des artefacts indésirables, réduisent le naturel et sont sensibles aux écarts entre les environnements d'entraînement et de test. D'un autre côté, les modèles génératifs pour la TSE accusent un retard en termes de qualité perceptuelle et d'intelligibilité. Pour relever ces défis, nous présentons SoloSpeech, un nouveau pipeline génératif en cascade qui intègre des processus de compression, d'extraction, de reconstruction et de correction. SoloSpeech comprend un extracteur de cible sans intégration de locuteur qui utilise des informations conditionnelles issues de l'espace latent de l'audio de référence, en l'alignant avec l'espace latent de l'audio mélangé pour éviter les incohérences. Évalué sur le jeu de données largement utilisé Libri2Mix, SoloSpeech établit un nouvel état de l'art en intelligibilité et qualité pour les tâches d'extraction de parole cible et de séparation de parole, tout en démontrant une généralisation exceptionnelle sur des données hors domaine et des scénarios réels.
English
Target Speech Extraction (TSE) aims to isolate a target speaker's voice from a mixture of multiple speakers by leveraging speaker-specific cues, typically provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in TSE have primarily employed discriminative models that offer high perceptual quality, these models often introduce unwanted artifacts, reduce naturalness, and are sensitive to discrepancies between training and testing environments. On the other hand, generative models for TSE lag in perceptual quality and intelligibility. To address these challenges, we present SoloSpeech, a novel cascaded generative pipeline that integrates compression, extraction, reconstruction, and correction processes. SoloSpeech features a speaker-embedding-free target extractor that utilizes conditional information from the cue audio's latent space, aligning it with the mixture audio's latent space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset, SoloSpeech achieves the new state-of-the-art intelligibility and quality in target speech extraction and speech separation tasks while demonstrating exceptional generalization on out-of-domain data and real-world scenarios.

Summary

AI-Generated Summary

PDF42May 28, 2025