Ming-Lite-Uni : Progrès dans l'architecture unifiée pour l'interaction multimodale naturelle

papers.abstract

Nous présentons Ming-Lite-Uni, un framework multimodal open-source doté d'un générateur visuel unifié nouvellement conçu et d'un modèle autoregressif multimodal natif spécialement adapté pour unifier la vision et le langage. Plus précisément, ce projet propose une implémentation open-source du framework intégré MetaQueries et M2-omni, tout en introduisant les nouveaux tokens apprenables multi-échelles et une stratégie d'alignement de représentations multi-échelles. En s'appuyant sur un MLLM fixe et un modèle de diffusion apprenable, Ming-Lite-Uni permet aux modèles AR multimodaux natifs d'exécuter à la fois des tâches de génération texte-à-image et d'édition d'images basée sur des instructions, élargissant ainsi leurs capacités au-delà de la simple compréhension visuelle. Nos résultats expérimentaux démontrent les performances solides de Ming-Lite-Uni et illustrent la nature fluide et impressionnante de son processus interactif. Tous les codes et poids des modèles sont open-source pour favoriser une exploration approfondie au sein de la communauté. Il est à noter que ce travail s'aligne sur les jalons récents de l'IA multimodale - tels que ChatGPT-4o avec la génération d'images native mise à jour le 25 mars 2025 - soulignant l'importance plus large des modèles unifiés comme Ming-Lite-Uni sur la voie vers l'AGI. Ming-Lite-Uni est en phase alpha et sera bientôt affiné davantage.

English

We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.

Ming-Lite-Uni : Progrès dans l'architecture unifiée pour l'interaction multimodale naturelle

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

papers.abstract

Support