ChatPaper.aiChatPaper

MGM-Omni: Escalonando LLMs Omni para Fala Personalizada de Longo Horizonte

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

September 29, 2025
Autores: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI

Resumo

Apresentamos o MGM-Omni, um modelo de linguagem Omni unificado para compreensão omni-modal e geração de fala expressiva e de longo horizonte. Diferente de pipelines em cascata que isolam a síntese de fala, o MGM-Omni adota um design "cérebro-boca" com uma arquitetura de trilha dupla baseada em tokens, que desacopla de forma clara o raciocínio multimodal da geração de fala em tempo real. Esse design permite interação eficiente entre modais e geração de fala em streaming com baixa latência. Para compreensão, uma estratégia de treinamento unificada, aliada a um design de codificador de áudio duplo, possibilita a percepção de áudio de longa duração em diversas condições acústicas. Para geração, um esquema de decodificação paralela baseado em chunks reduz a lacuna entre a taxa de tokens de texto e fala, acelerando a inferência e suportando clonagem de voz zero-shot em streaming com timbre estável por longos períodos. Comparado a trabalhos concorrentes, o MGM-Omni alcança essas capacidades com um treinamento notavelmente eficiente em termos de dados. Experimentos extensivos demonstram que o MGM-Omni supera modelos de código aberto existentes na preservação da identidade do timbre em sequências estendidas, na produção de fala natural e contextualmente consciente, e na obtenção de uma compreensão superior de áudio de longa duração e omni-modal. O MGM-Omni estabelece um paradigma eficiente e de ponta a ponta para compreensão omni-modal e geração de fala controlável e personalizada de longo horizonte.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.
PDF142September 30, 2025