ChatPaper.aiChatPaper

Ming-Lite-Uni: Достижения в унифицированной архитектуре для естественного мультимодального взаимодействия

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

May 5, 2025
Авторы: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI

Аннотация

Мы представляем Ming-Lite-Uni — открытый мультимодальный фреймворк, включающий вновь разработанный унифицированный визуальный генератор и нативную мультимодальную авторегрессионную модель, предназначенную для объединения зрения и языка. В частности, этот проект предоставляет открытую реализацию интегрированных MetaQueries и фреймворка M2-omni, а также вводит новые многоуровневые обучаемые токены и стратегию выравнивания многоуровневых представлений. Используя фиксированную MLLM и обучаемую диффузионную модель, Ming-Lite-Uni позволяет нативным мультимодальным AR-моделям выполнять как генерацию изображений из текста, так и задачи редактирования изображений на основе инструкций, расширяя их возможности за пределы чисто визуального понимания. Наши экспериментальные результаты демонстрируют высокую производительность Ming-Lite-Uni и иллюстрируют впечатляющую плавность его интерактивного процесса. Весь код и веса моделей открыты для дальнейшего изучения сообществом. Примечательно, что эта работа соответствует современным достижениям в области мультимодального ИИ, таким как ChatGPT-4o с нативной генерацией изображений, обновлённым 25 марта 2025 года, подчеркивая более широкую значимость унифицированных моделей, подобных Ming-Lite-Uni, на пути к ИИ общего назначения (AGI). Ming-Lite-Uni находится на альфа-стадии и вскоре будет доработан.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.

Summary

AI-Generated Summary

PDF91May 6, 2025