MGM-Omni: Escalando LLMs Omni para Habla Personalizada de Largo Horizonte

Resumen

Presentamos MGM-Omni, un modelo de lenguaje multimodal unificado (Omni LLM) para la comprensión omni-modal y la generación expresiva de habla de largo horizonte. A diferencia de los sistemas en cascada que aíslan la síntesis de voz, MGM-Omni adopta un diseño "cerebro-boca" con una arquitectura de doble vía basada en tokens que desacopla de manera clara el razonamiento multimodal de la generación de habla en tiempo real. Este diseño permite una interacción multimodal eficiente y una generación de habla en flujo continuo con baja latencia. Para la comprensión, una estrategia de entrenamiento unificada junto con un diseño de codificador de audio dual permite la percepción de audio de larga duración en diversas condiciones acústicas. Para la generación, un esquema de decodificación paralela basado en fragmentos reduce la brecha entre la tasa de tokens de texto y habla, acelerando la inferencia y permitiendo la clonación de voz en flujo continuo con timbre estable durante períodos prolongados. En comparación con trabajos contemporáneos, MGM-Omni logra estas capacidades con un entrenamiento notablemente eficiente en términos de datos. Experimentos exhaustivos demuestran que MGM-Omni supera a los modelos de código abierto existentes en la preservación de la identidad del timbre a lo largo de secuencias extendidas, la producción de habla natural y contextualmente consciente, y la comprensión superior de audio de larga duración y multimodal. MGM-Omni establece un paradigma eficiente y de extremo a extremo para la comprensión omni-modal y la generación controlada y personalizada de habla de largo horizonte.

English

We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.

MGM-Omni: Escalando LLMs Omni para Habla Personalizada de Largo Horizonte

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

Resumen

Support