FlashLabs Chroma 1.0: Een Real-Time End-to-End Gesproken Dialoogmodel met Gepersonaliseerde Stemkloning
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
January 16, 2026
Auteurs: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI
Samenvatting
Recente end-to-end gesproken dialoogsystemen maken gebruik van spraaktokenizers en neurale audiocodecs om LLM's rechtstreeks op discrete spraakrepresentaties te laten werken. Deze modellen vertonen echter vaak een beperkte bewaring van sprekersidentiteit, wat gepersonaliseerde spraakinteractie belemmert. In dit werk presenteren we Chroma 1.0, het eerste open-source, real-time, end-to-end gesproken dialoogmodel dat zowel lage-latency interactie als hoogwaardige gepersonaliseerde stemkloning bereikt. Chroma bereikt een end-to-end latentie van minder dan een seconde via een geïnterlinieerd tekst-audio tokenschema (1:2) dat streaminggeneratie ondersteunt, terwijl het hoogwaardige gepersonaliseerde stemsynthese behoudt tijdens meerkeuzesgesprekken. Onze experimentele resultaten tonen aan dat Chroma een relatieve verbetering van 10,96% in sprekersgelijkenis bereikt ten opzichte van de menselijke baseline, met een Real-Time Factor (RTF) van 0,43, waarbij sterke redeneer- en dialoogcapaciteiten behouden blijven. Onze code en modellen zijn openbaar beschikbaar op https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma en https://huggingface.co/FlashLabs/Chroma-4B.
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .