소믈리에: 완전 이중 음성 언어 모델을 위한 확장 가능한 오픈 멀티턴 오디오 전처리 시스템
Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models
March 20, 2026
저자: Kyudan Jung, Jihwan Kim, Soyoon Kim, Jeongoon Kim, Jaegul Choo, Cheonbok Park
cs.AI
초록
AI 패러다임이 텍스트 기반 LLM에서 음성 언어 모델(SLM)로 전환됨에 따라 실시간 자연스러운 인간-컴퓨터 상호작용이 가능한 전이중 시스템에 대한 수요가 증가하고 있습니다. 그러나 기존 대규모 데이터 자원이 주로 단일 화자 위주이거나 양적으로 제한적이어서 고품질 다중 화자 대화 데이터의 부족이 이러한 모델 개발의 걸림돌이 되고 있습니다. 중첩 발화 및 백채널링과 같은 자연스러운 대화의 복잡한 역동성을 해결하는 것은 여전히 과제로 남아 있으며, 표준 처리 파이프라인은 화자 분할 오류 및 자동 음성 인식(ASR) 환각 현상으로 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해 본 논문은 전이중 모델을 위해 설계된 견고하고 확장 가능한 오픈소스 데이터 처리 파이프라인을 제시합니다.
English
As the paradigm of AI shifts from text-based LLMs to Speech Language Models (SLMs), there is a growing demand for full-duplex systems capable of real-time, natural human-computer interaction. However, the development of such models is constrained by the scarcity of high-quality, multi-speaker conversational data, as existing large-scale resources are predominantly single-speaker or limited in volume. Addressing the complex dynamics of natural dialogue, such as overlapping and back-channeling remains a challenge, with standard processing pipelines suffering from diarization errors and ASR hallucinations. To bridge this gap, we present a robust and scalable open-source data processing pipeline designed for full-duplex model.