Ming-Lite-Uni: Avances en la Arquitectura Unificada para la Interacción Multimodal Natural

Resumen

Presentamos Ming-Lite-Uni, un marco multimodal de código abierto que incluye un generador visual unificado de nuevo diseño y un modelo autorregresivo multimodal nativo diseñado para unificar visión y lenguaje. Específicamente, este proyecto ofrece una implementación de código abierto del marco integrado MetaQueries y M2-omni, al tiempo que introduce los novedosos tokens aprendibles multiescala y la estrategia de alineación de representación multiescala. Al aprovechar un MLLM fijo y un modelo de difusión aprendible, Ming-Lite-Uni permite que los modelos AR multimodales nativos realicen tanto la generación de texto a imagen como tareas de edición de imágenes basadas en instrucciones, ampliando sus capacidades más allá del mero entendimiento visual. Nuestros resultados experimentales demuestran el sólido rendimiento de Ming-Lite-Uni y muestran la impresionante fluidez de su proceso interactivo. Todo el código y los pesos del modelo se han liberado para fomentar una mayor exploración en la comunidad. Cabe destacar que este trabajo se alinea con hitos contemporáneos de la IA multimodal, como ChatGPT-4o con generación de imágenes nativa actualizada el 25 de marzo de 2025, subrayando la importancia más amplia de modelos unificados como Ming-Lite-Uni en el camino hacia la AGI. Ming-Lite-Uni se encuentra en fase alfa y pronto será refinado aún más.

English

We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.

Ming-Lite-Uni: Avances en la Arquitectura Unificada para la Interacción Multimodal Natural

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

Resumen

Support