Ming-Lite-Uni : Progrès dans l'architecture unifiée pour l'interaction multimodale naturelle
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
May 5, 2025
Auteurs: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI
Résumé
Nous présentons Ming-Lite-Uni, un framework multimodal open-source doté d'un générateur visuel unifié nouvellement conçu et d'un modèle autoregressif multimodal natif spécialement adapté pour unifier la vision et le langage. Plus précisément, ce projet propose une implémentation open-source du framework intégré MetaQueries et M2-omni, tout en introduisant les nouveaux tokens apprenables multi-échelles et une stratégie d'alignement de représentations multi-échelles. En s'appuyant sur un MLLM fixe et un modèle de diffusion apprenable, Ming-Lite-Uni permet aux modèles AR multimodaux natifs d'exécuter à la fois des tâches de génération texte-à-image et d'édition d'images basée sur des instructions, élargissant ainsi leurs capacités au-delà de la simple compréhension visuelle. Nos résultats expérimentaux démontrent les performances solides de Ming-Lite-Uni et illustrent la nature fluide et impressionnante de son processus interactif. Tous les codes et poids des modèles sont open-source pour favoriser une exploration approfondie au sein de la communauté. Il est à noter que ce travail s'aligne sur les jalons récents de l'IA multimodale - tels que ChatGPT-4o avec la génération d'images native mise à jour le 25 mars 2025 - soulignant l'importance plus large des modèles unifiés comme Ming-Lite-Uni sur la voie vers l'AGI. Ming-Lite-Uni est en phase alpha et sera bientôt affiné davantage.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a
newly designed unified visual generator and a native multimodal autoregressive
model tailored for unifying vision and language. Specifically, this project
provides an open-source implementation of the integrated MetaQueries and
M2-omni framework, while introducing the novel multi-scale learnable tokens and
multi-scale representation alignment strategy. By leveraging a fixed MLLM and a
learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to
perform both text-to-image generation and instruction based image editing
tasks, expanding their capabilities beyond pure visual understanding. Our
experimental results demonstrate the strong performance of Ming-Lite-Uni and
illustrate the impressive fluid nature of its interactive process. All code and
model weights are open-sourced to foster further exploration within the
community. Notably, this work aligns with concurrent multimodal AI milestones -
such as ChatGPT-4o with native image generation updated in March 25, 2025 -
underscoring the broader significance of unified models like Ming-Lite-Uni on
the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further
refined.Summary
AI-Generated Summary