MOSS-Speech: Hacia Modelos Verdaderos de Voz a Voz Sin Guía de Texto
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance
October 1, 2025
Autores: Xingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
cs.AI
Resumen
Los sistemas de diálogo hablado suelen depender de pipelines en cascada que transcriben, procesan y resintetizan el habla. Aunque efectivo, este diseño descarta señales paralingüísticas y limita la expresividad. Los métodos recientes de extremo a extremo reducen la latencia y preservan mejor estas señales, pero aún dependen de intermediarios textuales, creando un cuello de botella fundamental. Presentamos MOSS-Speech, un verdadero modelo de lenguaje grande de habla a habla que comprende y genera habla directamente sin depender de guías textuales. Nuestro enfoque combina una arquitectura de división de capas basada en modalidades con una estrategia de preentrenamiento congelado, preservando el razonamiento y el conocimiento de los modelos de lenguaje grandes preentrenados en texto mientras añade capacidades nativas de habla. Los experimentos muestran que nuestro modelo alcanza resultados de vanguardia en respuestas a preguntas habladas y ofrece un rendimiento comparable en tareas de habla a habla en relación con los sistemas guiados por texto existentes, manteniendo al mismo tiempo un rendimiento competitivo en texto. Al reducir la brecha entre la generación de habla guiada por texto y la generación directa de habla, nuestro trabajo establece un nuevo paradigma para la interacción de habla de extremo a extremo expresiva y eficiente.
English
Spoken dialogue systems often rely on cascaded pipelines that transcribe,
process, and resynthesize speech. While effective, this design discards
paralinguistic cues and limits expressivity. Recent end-to-end methods reduce
latency and better preserve these cues, yet still rely on text intermediates,
creating a fundamental bottleneck. We present MOSS-Speech, a true
speech-to-speech large language model that directly understands and generates
speech without relying on text guidance. Our approach combines a modality-based
layer-splitting architecture with a frozen pre-training strategy, preserving
the reasoning and knowledge of pretrained text LLMs while adding native speech
capabilities. Experiments show that our model achieves state-of-the-art results
in spoken question answering and delivers comparable speech-to-speech
performance relative to existing text-guided systems, while still maintaining
competitive text performance. By narrowing the gap between text-guided and
direct speech generation, our work establishes a new paradigm for expressive
and efficient end-to-end speech interaction.