Sommelier : Prétraitement audio ouvert multi-tours évolutif pour les modèles de langage vocaux en duplex intégral

Résumé

Alors que le paradigme de l'IA évolue des LLM basés sur le texte vers les modèles de langage vocal (SLM), la demande croît pour des systèmes full-duplex capables d'interactions homme-machine naturelles en temps réel. Cependant, le développement de tels modèles est limité par la rareté de données conversationnelles multi-locuteurs de haute qualité, les ressources à grande échelle existantes étant majoritairement mono-locuteurs ou de volume limité. La gestion des dynamiques complexes du dialogue naturel, telles que les chevauchements et les signaux d'écoute, reste un défi, les pipelines de traitement standards souffrant d'erreurs de diarisation et d'hallucinations de reconnaissance automatique de la parole. Pour combler cette lacune, nous présentons un pipeline de traitement de données open source robuste et évolutif, conçu pour les modèles full-duplex.

English

As the paradigm of AI shifts from text-based LLMs to Speech Language Models (SLMs), there is a growing demand for full-duplex systems capable of real-time, natural human-computer interaction. However, the development of such models is constrained by the scarcity of high-quality, multi-speaker conversational data, as existing large-scale resources are predominantly single-speaker or limited in volume. Addressing the complex dynamics of natural dialogue, such as overlapping and back-channeling remains a challenge, with standard processing pipelines suffering from diarization errors and ASR hallucinations. To bridge this gap, we present a robust and scalable open-source data processing pipeline designed for full-duplex model.

Sommelier : Prétraitement audio ouvert multi-tours évolutif pour les modèles de langage vocaux en duplex intégral

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Résumé

Support