MOSS-Speech : Vers des modèles de parole à parole sans guidage textuel
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance
October 1, 2025
papers.authors: Xingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
cs.AI
papers.abstract
Les systèmes de dialogue parlés reposent souvent sur des pipelines en cascade qui transcrivent, traitent et resynthétisent la parole. Bien qu'efficace, cette conception élimine les indices paralinguistiques et limite l'expressivité. Les méthodes récentes de bout en bout réduisent la latence et préservent mieux ces indices, mais elles s'appuient toujours sur des intermédiaires textuels, créant ainsi un goulot d'étranglement fondamental. Nous présentons MOSS-Speech, un véritable modèle de langage massif (LLM) parole-à-parole qui comprend et génère directement la parole sans s'appuyer sur des guidages textuels. Notre approche combine une architecture de division de couches basée sur la modalité avec une stratégie de pré-entraînement figée, préservant ainsi le raisonnement et les connaissances des LLM textuels pré-entraînés tout en ajoutant des capacités natives de traitement de la parole. Les expériences montrent que notre modèle atteint des résultats de pointe en réponse à des questions parlées et offre des performances comparables en parole-à-parole par rapport aux systèmes existants guidés par le texte, tout en maintenant des performances compétitives en traitement textuel. En réduisant l'écart entre la génération de parole guidée par le texte et la génération directe de parole, notre travail établit un nouveau paradigme pour une interaction vocale expressive et efficace de bout en bout.
English
Spoken dialogue systems often rely on cascaded pipelines that transcribe,
process, and resynthesize speech. While effective, this design discards
paralinguistic cues and limits expressivity. Recent end-to-end methods reduce
latency and better preserve these cues, yet still rely on text intermediates,
creating a fundamental bottleneck. We present MOSS-Speech, a true
speech-to-speech large language model that directly understands and generates
speech without relying on text guidance. Our approach combines a modality-based
layer-splitting architecture with a frozen pre-training strategy, preserving
the reasoning and knowledge of pretrained text LLMs while adding native speech
capabilities. Experiments show that our model achieves state-of-the-art results
in spoken question answering and delivers comparable speech-to-speech
performance relative to existing text-guided systems, while still maintaining
competitive text performance. By narrowing the gap between text-guided and
direct speech generation, our work establishes a new paradigm for expressive
and efficient end-to-end speech interaction.