ChatPaper.aiChatPaper

Ming-Lite-Uni: Progressi nell'Architettura Unificata per l'Interazione Multimodale Naturale

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

May 5, 2025
Autori: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI

Abstract

Presentiamo Ming-Lite-Uni, un framework multimodale open-source che include un generatore visivo unificato di nuova concezione e un modello autoregressivo multimodale nativo progettato per unificare visione e linguaggio. Nello specifico, questo progetto fornisce un'implementazione open-source del framework integrato MetaQueries e M2-omni, introducendo al contempo i nuovi token apprendibili multi-scala e la strategia di allineamento delle rappresentazioni multi-scala. Sfruttando un MLLM fisso e un modello di diffusione apprendibile, Ming-Lite-Uni consente ai modelli AR multimodali nativi di eseguire sia la generazione di immagini da testo che attività di editing di immagini basate su istruzioni, ampliando le loro capacità oltre la pura comprensione visiva. I nostri risultati sperimentali dimostrano le prestazioni robuste di Ming-Lite-Uni e illustrano la natura fluida e impressionante del suo processo interattivo. Tutti i codici e i pesi dei modelli sono resi open-source per favorire ulteriori esplorazioni all'interno della comunità. È importante notare che questo lavoro si allinea con traguardi contemporanei dell'IA multimodale, come ChatGPT-4o con generazione di immagini nativa aggiornata al 25 marzo 2025, sottolineando l'importanza più ampia di modelli unificati come Ming-Lite-Uni nel percorso verso l'AGI. Ming-Lite-Uni è in fase alpha e verrà presto ulteriormente perfezionato.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.
PDF121May 6, 2025