**Sommelier: Pre-elaborazione Audio Multi-turn Scalabile e Aperta per Modelli Linguistici Vocali Full-Duplex**
Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models
March 20, 2026
Autori: Kyudan Jung, Jihwan Kim, Soyoon Kim, Jeongoon Kim, Jaegul Choo, Cheonbok Park
cs.AI
Abstract
Con il passaggio del paradigma dell'IA da modelli linguistici di grandi dimensioni (LLM) basati su testo a modelli linguistici vocali (SLM), cresce la domanda di sistemi full-duplex in grado di interagire con gli esseri umani in tempo reale e in modo naturale. Tuttavia, lo sviluppo di tali modelli è limitato dalla scarsità di dati conversazionali di alta qualità e con più parlanti, poiché le risorse su larga scala esistenti sono prevalentemente a parlante singolo o di volume limitato. Affrontare le dinamiche complesse del dialogo naturale, come le sovrapposizioni e i segnali di feedback (back-channeling), rimane una sfida, con le pipeline di elaborazione standard che soffrono di errori di diarizzazione e allucinazioni dei sistemi di riconoscimento vocale automatico (ASR). Per colmare questa lacuna, presentiamo una pipeline di elaborazione dati open-source, robusta e scalabile, progettata per modelli full-duplex.
English
As the paradigm of AI shifts from text-based LLMs to Speech Language Models (SLMs), there is a growing demand for full-duplex systems capable of real-time, natural human-computer interaction. However, the development of such models is constrained by the scarcity of high-quality, multi-speaker conversational data, as existing large-scale resources are predominantly single-speaker or limited in volume. Addressing the complex dynamics of natural dialogue, such as overlapping and back-channeling remains a challenge, with standard processing pipelines suffering from diarization errors and ASR hallucinations. To bridge this gap, we present a robust and scalable open-source data processing pipeline designed for full-duplex model.