ChatPaper.aiChatPaper

Ming-Lite-Uni: Vooruitgang in Geünificeerde Architectuur voor Natuurlijke Multimodale Interactie

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

May 5, 2025
Auteurs: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI

Samenvatting

We introduceren Ming-Lite-Uni, een open-source multimodale framework met een nieuw ontworpen geïntegreerde visuele generator en een native multimodale autoregressieve model, speciaal ontwikkeld voor het verenigen van visie en taal. Dit project biedt een open-source implementatie van het geïntegreerde MetaQueries- en M2-omni-framework, terwijl het ook de nieuwe multi-schaal leerbare tokens en multi-schaal representatie-uitlijningsstrategie introduceert. Door gebruik te maken van een vast MLLM en een leerbaar diffusiemodel, stelt Ming-Lite-Uni native multimodale AR-modellen in staat om zowel tekst-naar-beeldgeneratie als instructiegebaseerde beeldbewerkingstaken uit te voeren, waardoor hun mogelijkheden verder reiken dan puur visueel begrip. Onze experimentele resultaten tonen de sterke prestaties van Ming-Lite-Uni aan en illustreren de indrukwekkende vloeiende aard van het interactieve proces. Alle code en modelgewichten zijn open-source gemaakt om verdere verkenning binnen de gemeenschap te bevorderen. Opmerkelijk is dat dit werk aansluit bij gelijktijdige multimodale AI-mijlpalen – zoals ChatGPT-4o met native beeldgeneratie, bijgewerkt op 25 maart 2025 – wat de bredere betekenis van geünificeerde modellen zoals Ming-Lite-Uni onderstreept op het pad naar AGI. Ming-Lite-Uni bevindt zich in de alfafase en zal binnenkort verder worden verfijnd.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.
PDF121May 6, 2025