ChatPaper.aiChatPaper

MOSS-Speech: В направлении истинных моделей преобразования речи в речь без текстового руководства

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance

October 1, 2025
Авторы: Xingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
cs.AI

Аннотация

Системы устного диалога часто используют каскадные конвейеры, которые транскрибируют, обрабатывают и повторно синтезируют речь. Хотя такой подход эффективен, он игнорирует паралингвистические сигналы и ограничивает выразительность. Современные сквозные методы снижают задержку и лучше сохраняют эти сигналы, но всё же полагаются на текстовые промежуточные этапы, создавая фундаментальное узкое место. Мы представляем MOSS-Speech — настоящую модель крупного языка для преобразования речи в речь, которая напрямую понимает и генерирует речь без использования текстовых указаний. Наш подход сочетает архитектуру с разделением слоёв на основе модальностей с замороженной стратегией предварительного обучения, сохраняя способность к рассуждению и знания предварительно обученных текстовых моделей крупного языка, добавляя при этом встроенные возможности работы с речью. Эксперименты показывают, что наша модель достигает передовых результатов в задачах устного ответа на вопросы и демонстрирует сопоставимую производительность в преобразовании речи в речь по сравнению с существующими системами, использующими текстовые указания, при этом сохраняя конкурентоспособные результаты в текстовых задачах. Сокращая разрыв между текстово-управляемым и прямым генерацией речи, наша работа устанавливает новую парадигму для выразительного и эффективного сквозного взаимодействия с речью.
English
Spoken dialogue systems often rely on cascaded pipelines that transcribe, process, and resynthesize speech. While effective, this design discards paralinguistic cues and limits expressivity. Recent end-to-end methods reduce latency and better preserve these cues, yet still rely on text intermediates, creating a fundamental bottleneck. We present MOSS-Speech, a true speech-to-speech large language model that directly understands and generates speech without relying on text guidance. Our approach combines a modality-based layer-splitting architecture with a frozen pre-training strategy, preserving the reasoning and knowledge of pretrained text LLMs while adding native speech capabilities. Experiments show that our model achieves state-of-the-art results in spoken question answering and delivers comparable speech-to-speech performance relative to existing text-guided systems, while still maintaining competitive text performance. By narrowing the gap between text-guided and direct speech generation, our work establishes a new paradigm for expressive and efficient end-to-end speech interaction.
PDF152October 7, 2025