ChatPaper.aiChatPaper

MGM-Omni: Масштабирование Omni LLM для персонализированной долгосрочной речи

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

September 29, 2025
Авторы: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI

Аннотация

Мы представляем MGM-Omni, унифицированную Omni LLM для всестороннего мультимодального понимания и выразительной генерации речи на длительных временных горизонтах. В отличие от каскадных подходов, которые изолируют синтез речи, MGM-Omni использует архитектуру "мозг-рот" с двухканальной токенизированной структурой, которая четко разделяет мультимодальное рассуждение и генерацию речи в реальном времени. Такая конструкция обеспечивает эффективное кросс-модальное взаимодействие и генерацию речи с низкой задержкой в потоковом режиме. Для понимания унифицированная стратегия обучения в сочетании с двойным аудиоэнкодером позволяет воспринимать длинные аудиозаписи в различных акустических условиях. Для генерации схема параллельного декодирования на основе фрагментов сокращает разрыв между текстовыми и речевыми токенами, ускоряя вывод и поддерживая потоковое клонирование голоса с нулевым обучением при стабильном тембре на протяжении длительных периодов. По сравнению с современными аналогами, MGM-Omni достигает этих возможностей при значительно более эффективном использовании данных. Многочисленные эксперименты демонстрируют, что MGM-Omni превосходит существующие открытые модели в сохранении идентичности тембра на длинных последовательностях, генерации естественной и контекстно-осознанной речи, а также в достижении превосходного понимания длинных аудиозаписей и мультимодальных данных. MGM-Omni устанавливает эффективный сквозной подход для всестороннего мультимодального понимания и управляемой персонализированной генерации речи на длительных временных горизонтах.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.
PDF112September 30, 2025