Sommelier: Skalierbare Open-Source Mehrfachdurchlauf-Audiovorverarbeitung für Vollduplex-Sprachmodelle

Zusammenfassung

Mit dem Paradigmenwechsel der KI von textbasierten LLMs zu Sprachsprachmodellen (SLMs) wächst die Nachfrage nach Vollduplex-Systemen, die eine natürliche Mensch-Computer-Interaktion in Echtzeit ermöglichen. Die Entwicklung solcher Modelle wird jedoch durch die Knappheit an hochwertigen, mehrsprachigen Konversationsdaten eingeschränkt, da bestehende groß angelegte Ressourcen überwiegend Einzelsprecherdaten umfassen oder nur begrenzt verfügbar sind. Die Bewältigung der komplexen Dynamik natürlicher Dialoge, wie Überlappungen und Back-Channeling, bleibt eine Herausforderung, da Standardverarbeitungspipelines unter Diarisierungsfehlern und ASR-Halluzinationen leiden. Um diese Lücke zu schließen, stellen wir eine robuste und skalierbare Open-Source-Datenverarbeitungspipeline für Vollduplex-Modelle vor.

English

As the paradigm of AI shifts from text-based LLMs to Speech Language Models (SLMs), there is a growing demand for full-duplex systems capable of real-time, natural human-computer interaction. However, the development of such models is constrained by the scarcity of high-quality, multi-speaker conversational data, as existing large-scale resources are predominantly single-speaker or limited in volume. Addressing the complex dynamics of natural dialogue, such as overlapping and back-channeling remains a challenge, with standard processing pipelines suffering from diarization errors and ASR hallucinations. To bridge this gap, we present a robust and scalable open-source data processing pipeline designed for full-duplex model.

Sommelier: Skalierbare Open-Source Mehrfachdurchlauf-Audiovorverarbeitung für Vollduplex-Sprachmodelle

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Zusammenfassung

Support