Ming-Omni: Un Modello Multimodale Unificato per Percezione e Generazione
Ming-Omni: A Unified Multimodal Model for Perception and Generation
June 11, 2025
Autori: Inclusion AI, Biao Gong, Cheng Zou, Chuanyang Zheng, Chunluan Zhou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jun Peng, Kaixiang Ji, Kaiyou Song, Kaimeng Ren, Libin Wang, Lixiang Ru, Lele Xie, Longhua Tan, Lyuxin Xue, Lan Wang, Mochen Bai, Ning Gao, Pei Chen, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Sirui Gao, Tinghao Liu, Taisong Li, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaoxue Chen, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yunxiao Sun, Yipeng Chen, Yifei Wu, Yongjie Lyu, Ziping Ma, Zipeng Feng, Zhijiang Fang, Zhihao Qiu, Ziyuan Huang, Zhengyu He
cs.AI
Abstract
Proponiamo Ming-Omni, un modello multimodale unificato in grado di elaborare immagini, testo, audio e video, dimostrando una forte competenza sia nella generazione vocale che in quella di immagini. Ming-Omni utilizza encoder dedicati per estrarre token da diverse modalità, che vengono poi elaborati da Ling, un'architettura MoE dotata di router specifici per modalità di nuova concezione. Questo design consente a un singolo modello di elaborare e fondere in modo efficiente input multimodali all'interno di un framework unificato, facilitando così diverse attività senza richiedere modelli separati, fine-tuning specifici per task o riprogettazioni strutturali. In modo significativo, Ming-Omni va oltre i modelli multimodali convenzionali supportando la generazione di audio e immagini. Ciò è reso possibile grazie all'integrazione di un decoder audio avanzato per una sintesi vocale naturale e di Ming-Lite-Uni per la generazione di immagini di alta qualità, che consentono inoltre al modello di impegnarsi in chat contestuali, eseguire la conversione da testo a voce e condurre un'editing di immagini versatile. I nostri risultati sperimentali dimostrano che Ming-Omni offre una soluzione potente per la percezione e la generazione unificate in tutte le modalità. In particolare, il nostro Ming-Omni è il primo modello open-source, a nostra conoscenza, a eguagliare GPT-4o nel supporto alle modalità, e rilasciamo tutto il codice e i pesi del modello per incoraggiare ulteriori ricerche e sviluppi nella comunità.
English
We propose Ming-Omni, a unified multimodal model capable of processing
images, text, audio, and video, while demonstrating strong proficiency in both
speech and image generation. Ming-Omni employs dedicated encoders to extract
tokens from different modalities, which are then processed by Ling, an MoE
architecture equipped with newly proposed modality-specific routers. This
design enables a single model to efficiently process and fuse multimodal inputs
within a unified framework, thereby facilitating diverse tasks without
requiring separate models, task-specific fine-tuning, or structural redesign.
Importantly, Ming-Omni extends beyond conventional multimodal models by
supporting audio and image generation. This is achieved through the integration
of an advanced audio decoder for natural-sounding speech and Ming-Lite-Uni for
high-quality image generation, which also allow the model to engage in
context-aware chatting, perform text-to-speech conversion, and conduct
versatile image editing. Our experimental results showcase Ming-Omni offers a
powerful solution for unified perception and generation across all modalities.
Notably, our proposed Ming-Omni is the first open-source model we are aware of
to match GPT-4o in modality support, and we release all code and model weights
to encourage further research and development in the community.