Ming-Lite-Uni: Avanços na Arquitetura Unificada para Interação Multimodal Natural

Resumo

Apresentamos o Ming-Lite-Uni, um framework multimodal de código aberto que apresenta um gerador visual unificado recém-projetado e um modelo autoregressivo multimodal nativo, especialmente desenvolvido para unificar visão e linguagem. Especificamente, este projeto oferece uma implementação de código aberto do framework integrado MetaQueries e M2-omni, ao mesmo tempo em que introduz os novos tokens aprendíveis em múltiplas escalas e a estratégia de alinhamento de representação em múltiplas escalas. Ao aproveitar um MLLM fixo e um modelo de difusão aprendível, o Ming-Lite-Uni permite que modelos AR multimodais nativos realizem tanto a geração de texto para imagem quanto tarefas de edição de imagens baseadas em instruções, expandindo suas capacidades além do mero entendimento visual. Nossos resultados experimentais demonstram o forte desempenho do Ming-Lite-Uni e ilustram a natureza impressionantemente fluida de seu processo interativo. Todo o código e os pesos dos modelos são disponibilizados em código aberto para promover uma maior exploração pela comunidade. Vale destacar que este trabalho está alinhado com marcos contemporâneos da IA multimodal - como o ChatGPT-4o com geração de imagens nativa atualizado em 25 de março de 2025 - ressaltando a importância mais ampla de modelos unificados como o Ming-Lite-Uni no caminho para a AGI. O Ming-Lite-Uni está em fase alfa e em breve será aprimorado.

English

We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.

Ming-Lite-Uni: Avanços na Arquitetura Unificada para Interação Multimodal Natural

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

Resumo

Support