**Sommelier: Pre-elaborazione Audio Multi-turn Scalabile e Aperta per Modelli Linguistici Vocali Full-Duplex**

Abstract

Con il passaggio del paradigma dell'IA da modelli linguistici di grandi dimensioni (LLM) basati su testo a modelli linguistici vocali (SLM), cresce la domanda di sistemi full-duplex in grado di interagire con gli esseri umani in tempo reale e in modo naturale. Tuttavia, lo sviluppo di tali modelli è limitato dalla scarsità di dati conversazionali di alta qualità e con più parlanti, poiché le risorse su larga scala esistenti sono prevalentemente a parlante singolo o di volume limitato. Affrontare le dinamiche complesse del dialogo naturale, come le sovrapposizioni e i segnali di feedback (back-channeling), rimane una sfida, con le pipeline di elaborazione standard che soffrono di errori di diarizzazione e allucinazioni dei sistemi di riconoscimento vocale automatico (ASR). Per colmare questa lacuna, presentiamo una pipeline di elaborazione dati open-source, robusta e scalabile, progettata per modelli full-duplex.

English

As the paradigm of AI shifts from text-based LLMs to Speech Language Models (SLMs), there is a growing demand for full-duplex systems capable of real-time, natural human-computer interaction. However, the development of such models is constrained by the scarcity of high-quality, multi-speaker conversational data, as existing large-scale resources are predominantly single-speaker or limited in volume. Addressing the complex dynamics of natural dialogue, such as overlapping and back-channeling remains a challenge, with standard processing pipelines suffering from diarization errors and ASR hallucinations. To bridge this gap, we present a robust and scalable open-source data processing pipeline designed for full-duplex model.

Sommelier: Pre-elaborazione Audio Multi-turn Scalabile e Aperta per Modelli Linguistici Vocali Full-Duplex

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Abstract

Support