ChatPaper.aiChatPaper

Ming-Omni: Ein einheitliches multimodales Modell für Wahrnehmung und Generierung

Ming-Omni: A Unified Multimodal Model for Perception and Generation

June 11, 2025
Autoren: Inclusion AI, Biao Gong, Cheng Zou, Chuanyang Zheng, Chunluan Zhou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jun Peng, Kaixiang Ji, Kaiyou Song, Kaimeng Ren, Libin Wang, Lixiang Ru, Lele Xie, Longhua Tan, Lyuxin Xue, Lan Wang, Mochen Bai, Ning Gao, Pei Chen, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Sirui Gao, Tinghao Liu, Taisong Li, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaoxue Chen, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yunxiao Sun, Yipeng Chen, Yifei Wu, Yongjie Lyu, Ziping Ma, Zipeng Feng, Zhijiang Fang, Zhihao Qiu, Ziyuan Huang, Zhengyu He
cs.AI

Zusammenfassung

Wir stellen Ming-Omni vor, ein einheitliches multimodales Modell, das in der Lage ist, Bilder, Text, Audio und Video zu verarbeiten und dabei eine hohe Kompetenz sowohl in der Sprach- als auch in der Bildgenerierung zeigt. Ming-Omni verwendet spezialisierte Encoder, um Tokens aus verschiedenen Modalitäten zu extrahieren, die anschließend von Ling, einer MoE-Architektur mit neu vorgeschlagenen modalitätsspezifischen Routern, verarbeitet werden. Dieser Entwurf ermöglicht es einem einzelnen Modell, multimodale Eingaben effizient zu verarbeiten und innerhalb eines einheitlichen Frameworks zu fusionieren, wodurch vielfältige Aufgaben ohne separate Modelle, aufgabenspezifische Feinabstimmung oder strukturelle Neugestaltung erleichtert werden. Besonders hervorzuheben ist, dass Ming-Omni über konventionelle multimodale Modelle hinausgeht, indem es Audio- und Bildgenerierung unterstützt. Dies wird durch die Integration eines fortschrittlichen Audio-Decoders für natürlich klingende Sprache und Ming-Lite-Uni für hochwertige Bildgenerierung erreicht, was es dem Modell auch ermöglicht, kontextbewusstes Chatten durchzuführen, Text-zu-Sprache-Konvertierung zu realisieren und vielseitige Bildbearbeitung zu betreiben. Unsere experimentellen Ergebnisse zeigen, dass Ming-Omni eine leistungsstarke Lösung für einheitliche Wahrnehmung und Generierung über alle Modalitäten hinweg bietet. Bemerkenswert ist, dass unser vorgeschlagenes Ming-Omni das erste Open-Source-Modell ist, das unserer Kenntnis nach GPT-4o in der Modalitätsunterstützung entspricht, und wir veröffentlichen den gesamten Code und die Modellgewichte, um weitere Forschung und Entwicklung in der Gemeinschaft zu fördern.
English
We propose Ming-Omni, a unified multimodal model capable of processing images, text, audio, and video, while demonstrating strong proficiency in both speech and image generation. Ming-Omni employs dedicated encoders to extract tokens from different modalities, which are then processed by Ling, an MoE architecture equipped with newly proposed modality-specific routers. This design enables a single model to efficiently process and fuse multimodal inputs within a unified framework, thereby facilitating diverse tasks without requiring separate models, task-specific fine-tuning, or structural redesign. Importantly, Ming-Omni extends beyond conventional multimodal models by supporting audio and image generation. This is achieved through the integration of an advanced audio decoder for natural-sounding speech and Ming-Lite-Uni for high-quality image generation, which also allow the model to engage in context-aware chatting, perform text-to-speech conversion, and conduct versatile image editing. Our experimental results showcase Ming-Omni offers a powerful solution for unified perception and generation across all modalities. Notably, our proposed Ming-Omni is the first open-source model we are aware of to match GPT-4o in modality support, and we release all code and model weights to encourage further research and development in the community.
PDF182June 13, 2025