FlashLabs Chroma 1.0: Un Modelo de Diálogo Hablado en Tiempo Real de Extremo a Extremo con Clonación de Voz Personalizada
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
January 16, 2026
Autores: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI
Resumen
Los sistemas de diálogo hablado de extremo a extremo recientes aprovechan tokenizadores de voz y códecs neuronales de audio para permitir que los LLM operen directamente sobre representaciones discretas del habla. Sin embargo, estos modelos a menudo presentan una preservación limitada de la identidad del hablante, lo que dificulta la interacción de voz personalizada. En este trabajo, presentamos Chroma 1.0, el primer modelo de diálogo hablado de extremo a extremo, de código abierto y en tiempo real que logra tanto una interacción de baja latencia como una clonación de voz personalizada de alta fidelidad. Chroma alcanza una latencia de extremo a extremo inferior a un segundo mediante un programa intercalado de tokens de texto y audio (1:2) que admite generación en flujo continuo, manteniendo al mismo tiempo una síntesis de voz personalizada de alta calidad a lo largo de conversaciones de múltiples turnos. Nuestros resultados experimentales demuestran que Chroma logra una mejora relativa del 10.96% en similitud de hablante respecto al baseline humano, con un Factor de Tiempo Real (RTF) de 0.43, manteniendo sólidas capacidades de razonamiento y diálogo. Nuestro código y modelos están disponibles públicamente en https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma y https://huggingface.co/FlashLabs/Chroma-4B.
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .