ChatPaper.aiChatPaper

MGM-Omni : Mise à l'échelle des modèles de langage omniprésents pour une parole personnalisée à long horizon

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

September 29, 2025
papers.authors: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI

papers.abstract

Nous présentons MGM-Omni, un modèle de langage omni-modal unifié (Omni LLM) pour la compréhension omni-modale et la génération expressive de parole à long horizon. Contrairement aux pipelines en cascade qui isolent la synthèse vocale, MGM-Omni adopte une conception "cerveau-bouche" avec une architecture à double voie basée sur des tokens, qui découple proprement le raisonnement multimodal de la génération de parole en temps réel. Cette conception permet une interaction intermodale efficace et une génération de parole en flux continu à faible latence. Pour la compréhension, une stratégie d'entraînement unifiée couplée à une conception de double encodeur audio permet une perception audio de longue durée dans diverses conditions acoustiques. Pour la génération, un schéma de décodage parallèle par segments réduit l'écart entre les taux de tokens texte et parole, accélérant l'inférence et supportant le clonage vocal en flux continu en zero-shot avec un timbre stable sur de longues durées. Par rapport aux travaux concurrents, MGM-Omni atteint ces capacités avec un entraînement nettement plus efficace en termes de données. Des expériences approfondies démontrent que MGM-Omni surpasse les modèles open source existants en préservant l'identité du timbre sur des séquences étendues, en produisant une parole naturelle et contextuellement pertinente, et en atteignant une compréhension supérieure de l'audio long format et omni-modale. MGM-Omni établit un paradigme efficace et end-to-end pour la compréhension omni-modale et la génération de parole contrôlée et personnalisée à long horizon.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.
PDF112September 30, 2025