ChatPaper.aiChatPaper

MGM-Omni: Skalierung von Omni-LLMs für personalisierte langfristige Sprachverarbeitung

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

September 29, 2025
papers.authors: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI

papers.abstract

Wir präsentieren MGM-Omni, ein einheitliches Omni-LLM für omnimodales Verständnis und expressive, langfristige Sprachgenerierung. Im Gegensatz zu kaskadierten Pipelines, die die Sprachsynthese isolieren, verwendet MGM-Omni ein „Gehirn-Mund“-Design mit einer dualen, tokenbasierten Architektur, die multimodales Denken klar von der Echtzeit-Sprachgenerierung entkoppelt. Dieses Design ermöglicht effiziente cross-modale Interaktion und Sprachgenerierung mit niedriger Latenz im Streaming-Modus. Für das Verständnis ermöglicht eine einheitliche Trainingsstrategie in Kombination mit einem dualen Audio-Encoder-Design die Wahrnehmung von langen Audioformaten unter verschiedenen akustischen Bedingungen. Für die Generierung reduziert ein chunk-basiertes paralleles Decodierungsschema die Lücke zwischen Text- und Sprach-Token-Raten, beschleunigt die Inferenz und unterstützt Streaming-Zero-Shot-Stimmklonung mit stabiler Klangfarbe über längere Zeiträume. Im Vergleich zu aktuellen Arbeiten erreicht MGM-Omni diese Fähigkeiten mit deutlich dateneffizienterem Training. Umfangreiche Experimente zeigen, dass MGM-Omni bestehende Open-Source-Modelle in der Bewahrung der Klangfarbenidentität über längere Sequenzen, der Erzeugung natürlicher und kontextbewusster Sprache sowie im Verständnis von langen Audioformaten und omnimodalen Inhalten übertrifft. MGM-Omni etabliert ein effizientes, end-to-end Paradigma für omnimodales Verständnis und kontrollierbare, personalisierte langfristige Sprachgenerierung.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.
PDF112September 30, 2025