FlashLabs Chroma 1.0: Um Modelo de Diálogo Falado em Tempo Real de Ponta a Ponta com Clonagem de Voz Personalizada
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
January 16, 2026
Autores: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI
Resumo
Os recentes sistemas de diálogo falado de ponta a ponta aproveitam tokenizadores de fala e codecs neurais de áudio para permitir que LLMs operem diretamente em representações discretas de fala. No entanto, esses modelos frequentemente exibem preservação limitada da identidade do locutor, dificultando a interação vocal personalizada. Neste trabalho, apresentamos o Chroma 1.0, o primeiro modelo de diálogo falado de ponta a ponta, em tempo real e de código aberto que alcança tanto interação de baixa latência quanto clonagem vocal personalizada de alta fidelidade. O Chroma atinge uma latência de ponta a ponta inferior a um segundo por meio de um esquema intercalado de tokens de texto e áudio (1:2) que suporta geração em fluxo contínuo, mantendo ao mesmo tempo uma síntese de voz personalizada de alta qualidade em conversas de múltiplos turnos. Nossos resultados experimentais demonstram que o Chroma alcança uma melhoria relativa de 10,96% na similaridade do locutor em relação à linha de base humana, com um Fator de Tempo Real (RTF) de 0,43, mantendo fortes capacidades de raciocínio e diálogo. Nosso código e modelos estão publicamente disponíveis em https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma e https://huggingface.co/FlashLabs/Chroma-4B.
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .