Ming-Lite-Uni: Avances en la Arquitectura Unificada para la Interacción Multimodal Natural
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
May 5, 2025
Autores: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI
Resumen
Presentamos Ming-Lite-Uni, un marco multimodal de código abierto que incluye un generador visual unificado de nuevo diseño y un modelo autorregresivo multimodal nativo diseñado para unificar visión y lenguaje. Específicamente, este proyecto ofrece una implementación de código abierto del marco integrado MetaQueries y M2-omni, al tiempo que introduce los novedosos tokens aprendibles multiescala y la estrategia de alineación de representación multiescala. Al aprovechar un MLLM fijo y un modelo de difusión aprendible, Ming-Lite-Uni permite que los modelos AR multimodales nativos realicen tanto la generación de texto a imagen como tareas de edición de imágenes basadas en instrucciones, ampliando sus capacidades más allá del mero entendimiento visual. Nuestros resultados experimentales demuestran el sólido rendimiento de Ming-Lite-Uni y muestran la impresionante fluidez de su proceso interactivo. Todo el código y los pesos del modelo se han liberado para fomentar una mayor exploración en la comunidad. Cabe destacar que este trabajo se alinea con hitos contemporáneos de la IA multimodal, como ChatGPT-4o con generación de imágenes nativa actualizada el 25 de marzo de 2025, subrayando la importancia más amplia de modelos unificados como Ming-Lite-Uni en el camino hacia la AGI. Ming-Lite-Uni se encuentra en fase alfa y pronto será refinado aún más.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a
newly designed unified visual generator and a native multimodal autoregressive
model tailored for unifying vision and language. Specifically, this project
provides an open-source implementation of the integrated MetaQueries and
M2-omni framework, while introducing the novel multi-scale learnable tokens and
multi-scale representation alignment strategy. By leveraging a fixed MLLM and a
learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to
perform both text-to-image generation and instruction based image editing
tasks, expanding their capabilities beyond pure visual understanding. Our
experimental results demonstrate the strong performance of Ming-Lite-Uni and
illustrate the impressive fluid nature of its interactive process. All code and
model weights are open-sourced to foster further exploration within the
community. Notably, this work aligns with concurrent multimodal AI milestones -
such as ChatGPT-4o with native image generation updated in March 25, 2025 -
underscoring the broader significance of unified models like Ming-Lite-Uni on
the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further
refined.Summary
AI-Generated Summary