ChatPaper.aiChatPaper

MGM-Omni: 개인화된 장기적 음성을 위한 Omni LLM 확장

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

September 29, 2025
저자: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI

초록

우리는 전(全)모달 이해와 표현력 있는 장기간 음성 생성을 위한 통합 전(全)모달 대형 언어 모델인 MGM-Omni를 소개한다. 음성 합성을 분리하는 캐스케이드 파이프라인과 달리, MGM-Omni는 다중모달 추론과 실시간 음성 생성을 깔끔하게 분리하는 이중 트랙 토큰 기반 아키텍처인 "뇌-입" 설계를 채택한다. 이 설계는 효율적인 교차모달 상호작용과 저지연 스트리밍 음성 생성을 가능하게 한다. 이해 측면에서는 통합 학습 전략과 이중 오디오 인코더 설계를 통해 다양한 음향 조건에서 장형 오디오 인식을 가능하게 한다. 생성 측면에서는 청크 기반 병렬 디코딩 방식을 통해 텍스트-음성 토큰 속도 격차를 줄이고, 추론 속도를 가속화하며, 장기간 안정적인 음색을 유지하는 스트리밍 제로샷 음성 복제를 지원한다. 동시대 연구와 비교하여, MGM-Omni는 이러한 기능을 현저히 데이터 효율적인 학습으로 달성한다. 광범위한 실험을 통해 MGM-Omni가 기존 오픈소스 모델들을 능가하는 성능을 보임을 입증했다. 이는 장기간 시퀀스에서 음색 정체성을 유지하고, 자연스럽고 문맥을 인지하는 음성을 생성하며, 우수한 장형 오디오 및 전모달 이해를 달성하는 데서 확인된다. MGM-Omni는 전모달 이해와 제어 가능한 개인화된 장기간 음성 생성을 위한 효율적인 종단 간 패러다임을 확립한다.
English
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.
PDF112September 30, 2025