MGM-Omni: Scalabilità dei Modelli Linguistici Omni per il Discorso Personalizzato a Lungo Termine
MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech
September 29, 2025
Autori: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI
Abstract
Presentiamo MGM-Omni, un modello linguistico omni-modale unificato per la comprensione multimodale e la generazione espressiva di discorsi a lungo termine. A differenza delle pipeline a cascata che isolano la sintesi vocale, MGM-Omni adotta un design "cervello-bocca" con un'architettura a doppio binario basata su token, che separa chiaramente il ragionamento multimodale dalla generazione vocale in tempo reale. Questo design consente un'interazione cross-modale efficiente e una generazione vocale in streaming a bassa latenza. Per la comprensione, una strategia di addestramento unificata abbinata a un design a doppio codificatore audio permette la percezione di audio di lunga durata in diverse condizioni acustiche. Per la generazione, uno schema di decodifica parallela basato su segmenti riduce il divario tra il tasso di token testuali e vocali, accelerando l'inferenza e supportando la clonazione vocale zero-shot in streaming con un timbro stabile per periodi prolungati. Rispetto a lavori contemporanei, MGM-Omni raggiunge queste capacità con un addestramento notevolmente efficiente in termini di dati. Esperimenti estensivi dimostrano che MGM-Omni supera i modelli open source esistenti nel preservare l'identità del timbro su sequenze estese, produrre discorsi naturali e contestualmente consapevoli, e ottenere una comprensione superiore dell'audio di lunga durata e multimodale. MGM-Omni stabilisce un paradigma end-to-end efficiente per la comprensione omni-modale e la generazione controllata e personalizzata di discorsi a lungo termine.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and
expressive, long-horizon speech generation. Unlike cascaded pipelines that
isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a
dual-track, token-based architecture that cleanly decouples multimodal
reasoning from real-time speech generation. This design enables efficient
cross-modal interaction and low-latency, streaming speech generation. For
understanding, a unified training strategy coupled with a dual audio encoder
design enables long-form audio perception across diverse acoustic conditions.
For generation, a chunk-based parallel decoding scheme narrows the text speech
token-rate gap, accelerating inference and supporting streaming zero-shot voice
cloning with stable timbre over extended durations. Compared to concurrent
work, MGM-Omni achieves these capabilities with markedly data-efficient
training. Extensive experiments demonstrate that MGM-Omni outperforms existing
open source models in preserving timbre identity across extended sequences,
producing natural and context-aware speech, and achieving superior long-form
audio and omnimodal understanding. MGM-Omni establishes an efficient,
end-to-end paradigm for omnimodal understanding and controllable, personalised
long-horizon speech generation.