FlashLabs Chroma 1.0: Модель сквозного речевого диалога в реальном времени с функцией персонализированного клонирования голоса
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
January 16, 2026
Авторы: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI
Аннотация
Современные сквозные системы устного диалога используют речевые токенизаторы и нейросетевые аудиокодеки, позволяя большим языковым моделям работать непосредственно с дискретными речевыми представлениями. Однако эти модели часто демонстрируют ограниченное сохранение идентичности говорящего, что затрудняет персонализированное голосовое взаимодействие. В данной работе мы представляем Chroma 1.0 — первую открытую сквозную модель устного диалога в реальном времени, которая обеспечивает как низколатентное взаимодействие, так и высококачественное персонализированное клонирование голоса. Chroma достигает сквозной задержки менее секунды благодаря чередующемуся расписанию текстовых и аудио токенов (1:2), поддерживающему потоковую генерацию, при этом сохраняя высокое качество персонализированного синтеза речи в многотурновых беседах. Наши экспериментальные результаты показывают, что Chroma демонстрирует относительное улучшение сходства с голосом на 10.96% по сравнению с человеческим базовым уровнем, при коэффициенте реального времени (RTF) 0.43, сохраняя при этом мощные рассуждения и диалоговые возможности. Наш код и модели общедоступны по адресам https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma и https://huggingface.co/FlashLabs/Chroma-4B.
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .