ChatPaper.aiChatPaper

FlashLabs Chroma 1.0 : Un modèle de dialogue parlé en temps réel de bout en bout avec clonage vocal personnalisé

FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

January 16, 2026
Auteurs: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI

Résumé

Les systèmes de dialogue oral de bout en bout récents exploitent des tokenizers vocaux et des codecs audio neuronaux pour permettre aux LLMs d'opérer directement sur des représentations discrètes de la parole. Cependant, ces modèles présentent souvent une préservation limitée de l'identité du locuteur, entravant l'interaction vocale personnalisée. Dans ce travail, nous présentons Chroma 1.0, le premier modèle de dialogue oral de bout en bout open-source en temps réel qui combine à la fois une interaction à faible latence et un clonage vocal personnalisé de haute fidélité. Chroma atteint une latence de bout en bout inférieure à la seconde grâce à un planification entrelacée de tokens texte-audio (1:2) supportant la génération en flux, tout en maintenant une synthèse vocale personnalisée de haute qualité sur des conversations multi-tours. Nos résultats expérimentaux démontrent que Chroma obtient une amélioration relative de 10,96% en similarité du locuteur par rapport au niveau de référence humain, avec un Facteur Temps Réel (RTF) de 0,43, tout en conservant de solides capacités de raisonnement et de dialogue. Notre code et nos modèles sont disponibles publiquement à https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma et https://huggingface.co/FlashLabs/Chroma-4B.
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .
PDF233February 7, 2026