Sommelier: Preprocesamiento de Audio Multi-turn Escalable y Abierto para Modelos de Lenguaje de Voz Full-duplex

Resumen

A medida que el paradigma de la IA cambia de los LLM basados en texto a los Modelos de Lenguaje de Voz (SLM), existe una creciente demanda de sistemas de dúplex completo capaces de interacción humano-computadora natural y en tiempo real. Sin embargo, el desarrollo de dichos modelos está limitado por la escasez de datos conversacionales de alta calidad y con múltiples interlocutores, ya que los recursos existentes a gran escala son predominantemente de un solo interlocutor o de volumen limitado. Abordar las dinámicas complejas del diálogo natural, como los solapamientos y las señales de retroalimentación, sigue siendo un desafío, ya que los flujos de procesamiento estándar adolecen de errores de diarización y alucinaciones de los sistemas de reconocimiento automático del habla (ASR). Para cerrar esta brecha, presentamos un flujo de procesamiento de datos robusto, escalable y de código abierto diseñado para modelos de dúplex completo.

English

As the paradigm of AI shifts from text-based LLMs to Speech Language Models (SLMs), there is a growing demand for full-duplex systems capable of real-time, natural human-computer interaction. However, the development of such models is constrained by the scarcity of high-quality, multi-speaker conversational data, as existing large-scale resources are predominantly single-speaker or limited in volume. Addressing the complex dynamics of natural dialogue, such as overlapping and back-channeling remains a challenge, with standard processing pipelines suffering from diarization errors and ASR hallucinations. To bridge this gap, we present a robust and scalable open-source data processing pipeline designed for full-duplex model.

Sommelier: Preprocesamiento de Audio Multi-turn Escalable y Abierto para Modelos de Lenguaje de Voz Full-duplex

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Resumen

Support