Ming-Lite-Uni: Fortschritte in der einheitlichen Architektur für natürliche multimodale Interaktion
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
May 5, 2025
Autoren: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI
Zusammenfassung
Wir stellen Ming-Lite-Uni vor, ein Open-Source-Multimodal-Framework, das einen neu entwickelten einheitlichen visuellen Generator und ein natives multimodales autoregressives Modell zur Vereinigung von Vision und Sprache umfasst. Konkret bietet dieses Projekt eine Open-Source-Implementierung des integrierten MetaQueries- und M2-omni-Frameworks und führt gleichzeitig neuartige mehrstufige lernbare Tokens sowie eine mehrstufige Repräsentationsausrichtungsstrategie ein. Durch die Nutzung eines festen MLLM und eines lernbaren Diffusionsmodells ermöglicht Ming-Lite-Uni nativen multimodalen AR-Modellen, sowohl Text-zu-Bild-Generierung als auch auf Anweisungen basierende Bildbearbeitungsaufgaben durchzuführen, wodurch ihre Fähigkeiten über das reine visuelle Verständnis hinaus erweitert werden. Unsere experimentellen Ergebnisse demonstrieren die starke Leistung von Ming-Lite-Uni und veranschaulichen die beeindruckende Flüssigkeit seines interaktiven Prozesses. Der gesamte Code und die Modellgewichte sind Open-Source, um weitere Erkundungen innerhalb der Community zu fördern. Bemerkenswerterweise steht diese Arbeit im Einklang mit gleichzeitigen Meilensteinen der multimodalen KI – wie ChatGPT-4o mit nativer Bildgenerierung, aktualisiert am 25. März 2025 – und unterstreicht die breitere Bedeutung einheitlicher Modelle wie Ming-Lite-Uni auf dem Weg zur AGI. Ming-Lite-Uni befindet sich in der Alpha-Phase und wird bald weiter verfeinert.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a
newly designed unified visual generator and a native multimodal autoregressive
model tailored for unifying vision and language. Specifically, this project
provides an open-source implementation of the integrated MetaQueries and
M2-omni framework, while introducing the novel multi-scale learnable tokens and
multi-scale representation alignment strategy. By leveraging a fixed MLLM and a
learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to
perform both text-to-image generation and instruction based image editing
tasks, expanding their capabilities beyond pure visual understanding. Our
experimental results demonstrate the strong performance of Ming-Lite-Uni and
illustrate the impressive fluid nature of its interactive process. All code and
model weights are open-sourced to foster further exploration within the
community. Notably, this work aligns with concurrent multimodal AI milestones -
such as ChatGPT-4o with native image generation updated in March 25, 2025 -
underscoring the broader significance of unified models like Ming-Lite-Uni on
the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further
refined.Summary
AI-Generated Summary