MOSS-Speech: Auf dem Weg zu echten Sprach-zu-Sprach-Modellen ohne Textanleitung
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance
October 1, 2025
papers.authors: Xingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
cs.AI
papers.abstract
Gesprochene Dialogsysteme basieren oft auf kaskadierten Pipelines, die Sprache transkribieren, verarbeiten und resynthetisieren. Obwohl effektiv, verwirft dieser Entwurf paralinguistische Hinweise und begrenzt die Ausdrucksfähigkeit. Neuere End-to-End-Methoden reduzieren die Latenz und bewahren diese Hinweise besser, doch sie verlassen sich weiterhin auf Text-Zwischenstufen, was einen grundlegenden Engpass darstellt. Wir präsentieren MOSS-Speech, ein echtes Sprach-zu-Sprach-Großsprachmodell, das Sprache direkt versteht und erzeugt, ohne auf Textanleitung angewiesen zu sein. Unser Ansatz kombiniert eine modalitätsbasierte Schichtteilungsarchitektur mit einer eingefrorenen Vorabtrainingsstrategie, wodurch die Schlussfolgerungsfähigkeit und das Wissen vortrainierter Text-LLMs erhalten bleiben, während native Sprachfähigkeiten hinzugefügt werden. Experimente zeigen, dass unser Modell Spitzenergebnisse in der gesprochenen Frage-Antwort-Aufgabe erzielt und eine vergleichbare Sprach-zu-Sprach-Leistung im Verhältnis zu bestehenden textgesteuerten Systemen liefert, während es gleichzeitig wettbewerbsfähige Textleistungen beibehält. Indem wir die Lücke zwischen textgesteuerter und direkter Sprachgenerierung verringern, etablieren wir ein neues Paradigma für ausdrucksstarke und effiziente End-to-End-Sprachinteraktion.
English
Spoken dialogue systems often rely on cascaded pipelines that transcribe,
process, and resynthesize speech. While effective, this design discards
paralinguistic cues and limits expressivity. Recent end-to-end methods reduce
latency and better preserve these cues, yet still rely on text intermediates,
creating a fundamental bottleneck. We present MOSS-Speech, a true
speech-to-speech large language model that directly understands and generates
speech without relying on text guidance. Our approach combines a modality-based
layer-splitting architecture with a frozen pre-training strategy, preserving
the reasoning and knowledge of pretrained text LLMs while adding native speech
capabilities. Experiments show that our model achieves state-of-the-art results
in spoken question answering and delivers comparable speech-to-speech
performance relative to existing text-guided systems, while still maintaining
competitive text performance. By narrowing the gap between text-guided and
direct speech generation, our work establishes a new paradigm for expressive
and efficient end-to-end speech interaction.