MOSS-Speech: Rumo a Verdadeiros Modelos de Fala-para-Fala Sem Orientação de Texto
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance
October 1, 2025
Autores: Xingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
cs.AI
Resumo
Sistemas de diálogo falado frequentemente dependem de pipelines em cascata que transcrevem, processam e ressintetizam a fala. Embora eficaz, esse design descarta pistas paralinguísticas e limita a expressividade. Métodos recentes de ponta a ponta reduzem a latência e preservam melhor essas pistas, mas ainda dependem de intermediários de texto, criando um gargalo fundamental. Apresentamos o MOSS-Speech, um verdadeiro modelo de linguagem grande de fala para fala que compreende e gera fala diretamente sem depender de orientação textual. Nossa abordagem combina uma arquitetura de divisão de camadas baseada em modalidades com uma estratégia de pré-treinamento congelado, preservando o raciocínio e o conhecimento de LLMs de texto pré-treinados enquanto adiciona capacidades nativas de fala. Experimentos mostram que nosso modelo alcança resultados de ponta em respostas a perguntas faladas e oferece desempenho comparável em conversão de fala para fala em relação aos sistemas guiados por texto existentes, mantendo ainda um desempenho competitivo em texto. Ao reduzir a lacuna entre a geração de fala guiada por texto e a geração direta de fala, nosso trabalho estabelece um novo paradigma para interações de fala expressivas e eficientes de ponta a ponta.
English
Spoken dialogue systems often rely on cascaded pipelines that transcribe,
process, and resynthesize speech. While effective, this design discards
paralinguistic cues and limits expressivity. Recent end-to-end methods reduce
latency and better preserve these cues, yet still rely on text intermediates,
creating a fundamental bottleneck. We present MOSS-Speech, a true
speech-to-speech large language model that directly understands and generates
speech without relying on text guidance. Our approach combines a modality-based
layer-splitting architecture with a frozen pre-training strategy, preserving
the reasoning and knowledge of pretrained text LLMs while adding native speech
capabilities. Experiments show that our model achieves state-of-the-art results
in spoken question answering and delivers comparable speech-to-speech
performance relative to existing text-guided systems, while still maintaining
competitive text performance. By narrowing the gap between text-guided and
direct speech generation, our work establishes a new paradigm for expressive
and efficient end-to-end speech interaction.