ChatPaper.aiChatPaper

MGM-Omni: Het schalen van Omni LLM's naar gepersonaliseerde spraak op lange termijn

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

September 29, 2025
Auteurs: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI

Samenvatting

We presenteren MGM-Omni, een verenigde Omni LLM voor omnimodale interpretatie en expressieve, langetermijn spraakgeneratie. In tegenstelling tot gecascadeerde pijplijnen die spraaksynthese isoleren, neemt MGM-Omni een "brein-mond" ontwerp aan met een dual-track, token-gebaseerde architectuur die multimodale redenering netjes ontkoppelt van real-time spraakgeneratie. Dit ontwerp maakt efficiënte cross-modale interactie en low-latency, streaming spraakgeneratie mogelijk. Voor interpretatie maakt een verenigde trainingsstrategie in combinatie met een dual audio encoder-ontwerp langdurige audioperceptie mogelijk onder diverse akoestische omstandigheden. Voor generatie verkleint een chunk-gebaseerd parallel decodering schema de kloof tussen tekst- en spraaktokens, wat de inferentie versnelt en streaming zero-shot stemklonen ondersteunt met een stabiele klankkleur over langere periodes. In vergelijking met gelijktijdig werk bereikt MGM-Omni deze mogelijkheden met opmerkelijk data-efficiënte training. Uitgebreide experimenten tonen aan dat MGM-Omni bestaande open source modellen overtreft in het behouden van klankkleuridentiteit over langere sequenties, het produceren van natuurlijke en contextbewuste spraak, en het bereiken van superieure langdurige audio- en omnimodale interpretatie. MGM-Omni stelt een efficiënt, end-to-end paradigma in voor omnimodale interpretatie en controleerbare, gepersonaliseerde langetermijn spraakgeneratie.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.
PDF142September 30, 2025