Ming-Lite-Uni: Достижения в унифицированной архитектуре для естественного мультимодального взаимодействия

Аннотация

Мы представляем Ming-Lite-Uni — открытый мультимодальный фреймворк, включающий вновь разработанный унифицированный визуальный генератор и нативную мультимодальную авторегрессионную модель, предназначенную для объединения зрения и языка. В частности, этот проект предоставляет открытую реализацию интегрированных MetaQueries и фреймворка M2-omni, а также вводит новые многоуровневые обучаемые токены и стратегию выравнивания многоуровневых представлений. Используя фиксированную MLLM и обучаемую диффузионную модель, Ming-Lite-Uni позволяет нативным мультимодальным AR-моделям выполнять как генерацию изображений из текста, так и задачи редактирования изображений на основе инструкций, расширяя их возможности за пределы чисто визуального понимания. Наши экспериментальные результаты демонстрируют высокую производительность Ming-Lite-Uni и иллюстрируют впечатляющую плавность его интерактивного процесса. Весь код и веса моделей открыты для дальнейшего изучения сообществом. Примечательно, что эта работа соответствует современным достижениям в области мультимодального ИИ, таким как ChatGPT-4o с нативной генерацией изображений, обновлённым 25 марта 2025 года, подчеркивая более широкую значимость унифицированных моделей, подобных Ming-Lite-Uni, на пути к ИИ общего назначения (AGI). Ming-Lite-Uni находится на альфа-стадии и вскоре будет доработан.

English

We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.

Ming-Lite-Uni: Достижения в унифицированной архитектуре для естественного мультимодального взаимодействия

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

Аннотация

Support