MGM-Omni : Mise à l'échelle des modèles de langage omniprésents pour une parole personnalisée à long horizon
MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech
September 29, 2025
papers.authors: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI
papers.abstract
Nous présentons MGM-Omni, un modèle de langage omni-modal unifié (Omni LLM) pour la compréhension omni-modale et la génération expressive de parole à long horizon. Contrairement aux pipelines en cascade qui isolent la synthèse vocale, MGM-Omni adopte une conception "cerveau-bouche" avec une architecture à double voie basée sur des tokens, qui découple proprement le raisonnement multimodal de la génération de parole en temps réel. Cette conception permet une interaction intermodale efficace et une génération de parole en flux continu à faible latence. Pour la compréhension, une stratégie d'entraînement unifiée couplée à une conception de double encodeur audio permet une perception audio de longue durée dans diverses conditions acoustiques. Pour la génération, un schéma de décodage parallèle par segments réduit l'écart entre les taux de tokens texte et parole, accélérant l'inférence et supportant le clonage vocal en flux continu en zero-shot avec un timbre stable sur de longues durées. Par rapport aux travaux concurrents, MGM-Omni atteint ces capacités avec un entraînement nettement plus efficace en termes de données. Des expériences approfondies démontrent que MGM-Omni surpasse les modèles open source existants en préservant l'identité du timbre sur des séquences étendues, en produisant une parole naturelle et contextuellement pertinente, et en atteignant une compréhension supérieure de l'audio long format et omni-modale. MGM-Omni établit un paradigme efficace et end-to-end pour la compréhension omni-modale et la génération de parole contrôlée et personnalisée à long horizon.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and
expressive, long-horizon speech generation. Unlike cascaded pipelines that
isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a
dual-track, token-based architecture that cleanly decouples multimodal
reasoning from real-time speech generation. This design enables efficient
cross-modal interaction and low-latency, streaming speech generation. For
understanding, a unified training strategy coupled with a dual audio encoder
design enables long-form audio perception across diverse acoustic conditions.
For generation, a chunk-based parallel decoding scheme narrows the text speech
token-rate gap, accelerating inference and supporting streaming zero-shot voice
cloning with stable timbre over extended durations. Compared to concurrent
work, MGM-Omni achieves these capabilities with markedly data-efficient
training. Extensive experiments demonstrate that MGM-Omni outperforms existing
open source models in preserving timbre identity across extended sequences,
producing natural and context-aware speech, and achieving superior long-form
audio and omnimodal understanding. MGM-Omni establishes an efficient,
end-to-end paradigm for omnimodal understanding and controllable, personalised
long-horizon speech generation.