FlashLabs Chroma 1.0: 개인 맞춤형 음성 복제 기능을 갖춘 실시간 종단 간 음성 대화 모델
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
January 16, 2026
저자: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI
초록
최근 등장한 종단형 음성 대화 시스템은 음성 토크나이저와 신경망 오디오 코덱을 활용하여 LLM이 이산 음성 표현을 직접 처리할 수 있도록 합니다. 그러나 이러한 모델들은 화자 정체성 보존 능력이 제한적이어서 개인화된 음성 상호작용을 저해하는 경우가 많습니다. 본 연구에서는 낮은 지연 시간의 상호작용과 높은 정확도의 개인화된 음성 복제를 동시에 달성하는 최초의 오픈소스 실시간 종단형 음성 대화 모델인 Chroma 1.0을 소개합니다. Chroma는 스트리밍 생성을 지원하는 교차 텍스트-오디오 토큰 스케줄링(1:2)을 통해 1초 미만의 종단 간 지연 시간을 달성하면서도 다중 턴 대화에서 고품질의 개인화된 음성 합성을 유지합니다. 실험 결과에 따르면 Chroma는 인간 기준 대비 화자 유사도에서 10.96%의 상대적 향상을 보였으며, Real-Time Factor(RTF)는 0.43으로 측정되었고 강력한 추론 및 대화 능력을 유지했습니다. 코드와 모델은 https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma와 https://huggingface.co/FlashLabs/Chroma-4B에서 공개되어 있습니다.
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .