FlashLabs Chroma 1.0: Un Modello di Dialogo Parlato End-to-End in Tempo Reale con Clonazione Vocale Personalizzata

Abstract

I recenti sistemi di dialogo parlato end-to-end sfruttano tokenizzatori vocali e codec neurali audio per consentire agli LLM di operare direttamente su rappresentazioni discrete del parlato. Tuttavia, questi modelli spesso mostrano una limitata conservazione dell'identità del parlante, ostacolando l'interazione vocale personalizzata. In questo lavoro, presentiamo Chroma 1.0, il primo modello di dialogo parlato end-to-end open-source in tempo reale che combina interazione a bassa latenza e clonazione vocale personalizzata ad alta fedeltà. Chroma raggiunge una latenza end-to-end inferiore al secondo attraverso una schedulazione intervallata di token testuali e audio (1:2) che supporta la generazione in streaming, mantenendo al contempo una sintesi vocale personalizzata di alta qualità attraverso conversazioni multi-turno. I nostri risultati sperimentali dimostrano che Chroma ottiene un miglioramento relativo del 10.96% nella similarità del parlante rispetto al baseline umano, con un Fattore di Tempo Reale (RTF) di 0.43, preservando solide capacità di ragionamento e dialogo. Il nostro codice e i nostri modelli sono pubblicamente disponibili su https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma e https://huggingface.co/FlashLabs/Chroma-4B.

English

Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .

FlashLabs Chroma 1.0: Un Modello di Dialogo Parlato End-to-End in Tempo Reale con Clonazione Vocale Personalizzata

FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Abstract

Support