ChatPaper.aiChatPaper

Sommelier: Schaalbare Open-source Multi-turn Audiobewerking voor Vol-duplex Spraaktaalmodellen

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

March 20, 2026
Auteurs: Kyudan Jung, Jihwan Kim, Soyoon Kim, Jeongoon Kim, Jaegul Choo, Cheonbok Park
cs.AI

Samenvatting

Met de paradigmaverschuiving in AI van tekstgebaseerde grote taalmmodellen (LLM's) naar spraaktaalmodellen (SLM's) neemt de vraag toe naar full-duplex systemen die realtime, natuurlijke mens-computerinteractie mogelijk maken. De ontwikkeling van dergelijke modellen wordt echter beperkt door het gebrek aan hoogwaardige, multi-speaker gespreksdata, aangezien bestaande grootschalige bronnen overwegend single-speaker zijn of beperkt in volume. Het adresseren van de complexe dynamiek van natuurlijke dialoog, zoals overlappingen en back-channeling, blijft een uitdaging, waarbij standaard verwerkingspijplijnen lijden onder diarisatiefouten en ASR-hallucinaties. Om deze kloof te overbruggen, presenteren we een robuuste en schaalbare open-source dataverwerkingspijplijn ontworpen voor full-duplex modellen.
English
As the paradigm of AI shifts from text-based LLMs to Speech Language Models (SLMs), there is a growing demand for full-duplex systems capable of real-time, natural human-computer interaction. However, the development of such models is constrained by the scarcity of high-quality, multi-speaker conversational data, as existing large-scale resources are predominantly single-speaker or limited in volume. Addressing the complex dynamics of natural dialogue, such as overlapping and back-channeling remains a challenge, with standard processing pipelines suffering from diarization errors and ASR hallucinations. To bridge this gap, we present a robust and scalable open-source data processing pipeline designed for full-duplex model.
PDF81March 31, 2026