ChatPaper.aiChatPaper

Ming-Lite-Uni: Avanços na Arquitetura Unificada para Interação Multimodal Natural

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

May 5, 2025
Autores: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI

Resumo

Apresentamos o Ming-Lite-Uni, um framework multimodal de código aberto que apresenta um gerador visual unificado recém-projetado e um modelo autoregressivo multimodal nativo, especialmente desenvolvido para unificar visão e linguagem. Especificamente, este projeto oferece uma implementação de código aberto do framework integrado MetaQueries e M2-omni, ao mesmo tempo em que introduz os novos tokens aprendíveis em múltiplas escalas e a estratégia de alinhamento de representação em múltiplas escalas. Ao aproveitar um MLLM fixo e um modelo de difusão aprendível, o Ming-Lite-Uni permite que modelos AR multimodais nativos realizem tanto a geração de texto para imagem quanto tarefas de edição de imagens baseadas em instruções, expandindo suas capacidades além do mero entendimento visual. Nossos resultados experimentais demonstram o forte desempenho do Ming-Lite-Uni e ilustram a natureza impressionantemente fluida de seu processo interativo. Todo o código e os pesos dos modelos são disponibilizados em código aberto para promover uma maior exploração pela comunidade. Vale destacar que este trabalho está alinhado com marcos contemporâneos da IA multimodal - como o ChatGPT-4o com geração de imagens nativa atualizado em 25 de março de 2025 - ressaltando a importância mais ampla de modelos unificados como o Ming-Lite-Uni no caminho para a AGI. O Ming-Lite-Uni está em fase alfa e em breve será aprimorado.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.
PDF151January 7, 2026