FlashLabs Chroma 1.0: Ein Echtzeit-End-to-End-Sprachdialogmodell mit personalisiertem Sprachklonen
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
January 16, 2026
Autoren: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI
Zusammenfassung
Aktuelle End-to-End-Sprachdialogsysteme nutzen Speech-Tokenizer und neuronale Audiocodecs, um LLMs den direkten Betrieb auf diskreten Sprachrepräsentationen zu ermöglichen. Diese Modelle zeigen jedoch oft eine begrenzte Sprecheridentitätserhaltung, was personalisierte Sprachinteraktionen behindert. In dieser Arbeit stellen wir Chroma 1.0 vor, das erste Open-Source-Echtzeit-End-to-End-Sprachdialogmodell, das sowohl Latenzzeiten im Subsekundenbereich als auch hochqualitatives personalisiertes Voice-Cloning erreicht. Chroma erzielt durch einen verschachtelten Text-Audio-Token-Plan (1:2), der Streaming-Generierung unterstützt, eine Ende-zu-Ende-Latenz von unter einer Sekunde und bewahrt gleichzeitig eine hochwertige personalisierte Sprachsynthese über Mehrfachdialoge hinweg. Unsere experimentellen Ergebnisse zeigen, dass Chroma eine relative Verbesserung der Sprecherähnlichkeit von 10,96 % gegenüber der menschlichen Baseline erreicht, bei einem Echtzeitfaktor (RTF) von 0,43 und unter Beibehaltung starker Reasoning- und Dialogfähigkeiten. Unser Code und unsere Modelle sind öffentlich verfügbar unter https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma und https://huggingface.co/FlashLabs/Chroma-4B.
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .