Ming-Lite-Uni: 자연스러운 멀티모달 상호작용을 위한 통합 아키텍처의 발전
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
May 5, 2025
저자: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang
cs.AI
초록
Ming-Lite-Uni를 소개합니다. 이는 새롭게 설계된 통합 시각 생성기와 시각 및 언어를 통합하기 위해 맞춤화된 네이티브 멀티모달 자동회귀 모델을 특징으로 하는 오픈소스 멀티모달 프레임워크입니다. 구체적으로, 이 프로젝트는 통합 MetaQueries와 M2-omni 프레임워크의 오픈소스 구현을 제공하며, 새로운 다중 스케일 학습 가능 토큰과 다중 스케일 표현 정렬 전략을 도입합니다. 고정된 MLLM과 학습 가능한 확산 모델을 활용함으로써, Ming-Lite-Uni는 네이티브 멀티모달 AR 모델이 텍스트-이미지 생성과 명령 기반 이미지 편집 작업을 모두 수행할 수 있게 하여 순수 시각 이해를 넘어선 능력을 확장합니다. 우리의 실험 결과는 Ming-Lite-Uni의 강력한 성능을 보여주며, 그 상호작용 과정의 인상적인 유연성을 입증합니다. 모든 코드와 모델 가중치는 커뮤니티 내 추가 탐구를 촉진하기 위해 오픈소스로 공개되었습니다. 특히, 이 작업은 2025년 3월 25일에 업데이트된 네이티브 이미지 생성 기능을 갖춘 ChatGPT-4o와 같은 동시대의 멀티모달 AI 이정표와 일치하며, AGI로 가는 길에서 Ming-Lite-Uni와 같은 통합 모델의 광범위한 중요성을 강조합니다. Ming-Lite-Uni는 현재 알파 단계에 있으며 곧 더욱 개선될 예정입니다.
English
We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a
newly designed unified visual generator and a native multimodal autoregressive
model tailored for unifying vision and language. Specifically, this project
provides an open-source implementation of the integrated MetaQueries and
M2-omni framework, while introducing the novel multi-scale learnable tokens and
multi-scale representation alignment strategy. By leveraging a fixed MLLM and a
learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to
perform both text-to-image generation and instruction based image editing
tasks, expanding their capabilities beyond pure visual understanding. Our
experimental results demonstrate the strong performance of Ming-Lite-Uni and
illustrate the impressive fluid nature of its interactive process. All code and
model weights are open-sourced to foster further exploration within the
community. Notably, this work aligns with concurrent multimodal AI milestones -
such as ChatGPT-4o with native image generation updated in March 25, 2025 -
underscoring the broader significance of unified models like Ming-Lite-Uni on
the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further
refined.Summary
AI-Generated Summary