ChatPaper.aiChatPaper

Ming-Lite-Uni:自然なマルチモーダルインタラクションのための統一アーキテクチャの進展

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

May 5, 2025
著者: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI

要旨

Ming-Lite-Uniを紹介します。これは、新たに設計された統一視覚生成器と、視覚と言語を統合するために特化したネイティブマルチモーダル自己回帰モデルを特徴とするオープンソースのマルチモーダルフレームワークです。具体的には、このプロジェクトでは、統合されたMetaQueriesとM2-omniフレームワークのオープンソース実装を提供し、新たなマルチスケール学習可能トークンとマルチスケール表現アライメント戦略を導入しています。固定されたMLLMと学習可能な拡散モデルを活用することで、Ming-Lite-UniはネイティブマルチモーダルARモデルがテキストから画像生成および指示に基づく画像編集タスクを実行できるようにし、純粋な視覚理解を超えた能力を拡張します。実験結果は、Ming-Lite-Uniの強力な性能とそのインタラクティブプロセスの印象的な流動性を示しています。すべてのコードとモデルウェイトはオープンソース化され、コミュニティ内でのさらなる探求を促進します。特に、この研究は、2025年3月25日に更新されたネイティブ画像生成を備えたChatGPT-4oなど、同時期のマルチモーダルAIのマイルストーンと一致し、AGIへの道におけるMing-Lite-Uniのような統一モデルの広範な重要性を強調しています。Ming-Lite-Uniはアルファ段階にあり、今後さらに洗練される予定です。
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.

Summary

AI-Generated Summary

PDF91May 6, 2025