ChatPaper.aiChatPaper

FlashLabs Chroma 1.0:パーソナライズされた音声クローニングを備えたエンドツーエンドリアルタイム音声対話モデル

FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

January 16, 2026
著者: Tanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi
cs.AI

要旨

近年のエンドツーエンド音声対話システムは、音声トークナイザーとニューラルオーディオコーデックを活用し、LLMが離散音声表現を直接処理できるようにしている。しかし、これらのモデルは話者同一性の保持が不十分で、パーソナライズされた音声インタラクションの実現を妨げている。本研究では、低遅延対話と高精度なパーソナライズド音声クローニングの両立を実現した、初のオープンソース・リアルタイム・エンドツーエンド音声対話モデル「Chroma 1.0」を提案する。Chromaは、ストリーミング生成を可能にする交錯型テキスト・音声トークンスケジュール(1:2)により、サブ秒レベルのエンドツーエンド遅延を達成しつつ、多ターン対話にわたる高品質なパーソナライズド音声合成を実現する。実験結果では、Chromaが人間のベースラインに対して10.96%の相対的な話者類似性向上を達成し、Real-Time Factor(RTF)0.43を維持しながら、強力な推論・対話能力を保持することを示す。コードとモデルはhttps://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma および https://huggingface.co/FlashLabs/Chroma-4B で公開されている。
English
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .
PDF81January 23, 2026