MOSS-Speech: Verso veri modelli speech-to-speech senza guida testuale
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance
October 1, 2025
Autori: Xingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
cs.AI
Abstract
I sistemi di dialogo parlato spesso si basano su pipeline a cascata che trascrivono, elaborano e risintetizzano il parlato. Sebbene efficaci, questo design scarta i segnali paralinguistici e limita l'espressività. I recenti metodi end-to-end riducono la latenza e preservano meglio questi segnali, ma si affidano ancora a intermedi testuali, creando un collo di bottiglia fondamentale. Presentiamo MOSS-Speech, un vero modello linguistico di grandi dimensioni (LLM) da parlato a parlato che comprende e genera direttamente il parlato senza fare affidamento sulla guida testuale. Il nostro approccio combina un'architettura di suddivisione degli strati basata sulla modalità con una strategia di pre-addestramento congelato, preservando il ragionamento e la conoscenza dei LLM testuali pre-addestrati mentre aggiunge capacità native di elaborazione del parlato. Gli esperimenti dimostrano che il nostro modello raggiunge risultati all'avanguardia nel rispondere a domande parlate e offre prestazioni comparabili nel passaggio da parlato a parlato rispetto ai sistemi esistenti guidati da testo, mantenendo comunque prestazioni competitive nel testo. Riducendo il divario tra la generazione guidata da testo e quella diretta del parlato, il nostro lavoro stabilisce un nuovo paradigma per l'interazione vocale end-to-end espressiva ed efficiente.
English
Spoken dialogue systems often rely on cascaded pipelines that transcribe,
process, and resynthesize speech. While effective, this design discards
paralinguistic cues and limits expressivity. Recent end-to-end methods reduce
latency and better preserve these cues, yet still rely on text intermediates,
creating a fundamental bottleneck. We present MOSS-Speech, a true
speech-to-speech large language model that directly understands and generates
speech without relying on text guidance. Our approach combines a modality-based
layer-splitting architecture with a frozen pre-training strategy, preserving
the reasoning and knowledge of pretrained text LLMs while adding native speech
capabilities. Experiments show that our model achieves state-of-the-art results
in spoken question answering and delivers comparable speech-to-speech
performance relative to existing text-guided systems, while still maintaining
competitive text performance. By narrowing the gap between text-guided and
direct speech generation, our work establishes a new paradigm for expressive
and efficient end-to-end speech interaction.