MGM-Omni: Escalando LLMs Omni para Habla Personalizada de Largo Horizonte
MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech
September 29, 2025
Autores: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI
Resumen
Presentamos MGM-Omni, un modelo de lenguaje multimodal unificado (Omni LLM) para la comprensión omni-modal y la generación expresiva de habla de largo horizonte. A diferencia de los sistemas en cascada que aíslan la síntesis de voz, MGM-Omni adopta un diseño "cerebro-boca" con una arquitectura de doble vía basada en tokens que desacopla de manera clara el razonamiento multimodal de la generación de habla en tiempo real. Este diseño permite una interacción multimodal eficiente y una generación de habla en flujo continuo con baja latencia. Para la comprensión, una estrategia de entrenamiento unificada junto con un diseño de codificador de audio dual permite la percepción de audio de larga duración en diversas condiciones acústicas. Para la generación, un esquema de decodificación paralela basado en fragmentos reduce la brecha entre la tasa de tokens de texto y habla, acelerando la inferencia y permitiendo la clonación de voz en flujo continuo con timbre estable durante períodos prolongados. En comparación con trabajos contemporáneos, MGM-Omni logra estas capacidades con un entrenamiento notablemente eficiente en términos de datos. Experimentos exhaustivos demuestran que MGM-Omni supera a los modelos de código abierto existentes en la preservación de la identidad del timbre a lo largo de secuencias extendidas, la producción de habla natural y contextualmente consciente, y la comprensión superior de audio de larga duración y multimodal. MGM-Omni establece un paradigma eficiente y de extremo a extremo para la comprensión omni-modal y la generación controlada y personalizada de habla de largo horizonte.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and
expressive, long-horizon speech generation. Unlike cascaded pipelines that
isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a
dual-track, token-based architecture that cleanly decouples multimodal
reasoning from real-time speech generation. This design enables efficient
cross-modal interaction and low-latency, streaming speech generation. For
understanding, a unified training strategy coupled with a dual audio encoder
design enables long-form audio perception across diverse acoustic conditions.
For generation, a chunk-based parallel decoding scheme narrows the text speech
token-rate gap, accelerating inference and supporting streaming zero-shot voice
cloning with stable timbre over extended durations. Compared to concurrent
work, MGM-Omni achieves these capabilities with markedly data-efficient
training. Extensive experiments demonstrate that MGM-Omni outperforms existing
open source models in preserving timbre identity across extended sequences,
producing natural and context-aware speech, and achieving superior long-form
audio and omnimodal understanding. MGM-Omni establishes an efficient,
end-to-end paradigm for omnimodal understanding and controllable, personalised
long-horizon speech generation.