Ming-Flash-Omni: 멀티모달 인식 및 생성을 위한 희소 통합 아키텍처
Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
October 28, 2025
저자: Inclusion AI, Bowen Ma, Cheng Zou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianing Li, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jianping Jiang, Jun Peng, Kaixiang Ji, Kaimeng Ren, Libin Wang, Lixiang Ru, Longhua Tan, Lan Wang, Mochen Bai, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Tianqi Li, Tinghao Liu, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaolong Wang, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He
cs.AI
초록
본 논문에서는 Ling-Flash-2.0의 더 희소한 MoE(Mixture-of-Experts) 변형을 기반으로 총 1,000억 개의 파라미터(토큰당 활성화 파라미터는 61억 개에 불과)를 갖춘 Ming-Omni의 업그레이드 버전인 Ming-Flash-Omni를 제안한다. 이 아키텍처는 높은 효율의 확장성(계산 효율을 극적으로 개선하면서 모델 용량을 크게 확장)을 가능하게 하며, 비전, 음성, 언어를 아우르는 더 강력한 통합 멀티모달 인텔리전스를 구현하여 인공 일반 지능(AGI)으로 나아가는 핵심 단계를 나타낸다. 이전 버전과 비교하여 업그레이드 버전은 멀티모달 이해 및 생성 전반에 걸쳐 상당한 향상을 보인다. 컨텍스트 인식 자동 음성 인식(ASR)에서는 최첨단 성능을, 방언 인식 ASR에서는 매우 경쟁력 있는 결과를 달성하며 음성 인식 능력을 크게 발전시켰다. 이미지 생성 분야에서는 Ming-Flash-Omni가 높은 정밀도의 텍스트 렌더링을 도입하고 이미지 편집 시 장면 일관성과 identity 보존 측면에서 현저한 향상을 보여준다. 더 나아가 Ming-Flash-Omni는 생성적 분할 능력을 도입하여 강력한 독립형 분할 성능을 달성할 뿐만 아니라 이미지 생성의 공간적 제어를 향상시키고 편집 일관성을 개선한다. 특히 Ming-Flash-Omni는 텍스트-이미지 생성과 생성적 분할에서 최첨단 결과를 달성하고, 단일 통합 아키텍처 내에서 모든 12개 컨텍스트 인식 ASR 벤치마크에서 새로운 기록을 수립하였다.
English
We propose Ming-Flash-Omni, an upgraded version of Ming-Omni, built upon a
sparser Mixture-of-Experts (MoE) variant of Ling-Flash-2.0 with 100 billion
total parameters, of which only 6.1 billion are active per token. This
architecture enables highly efficient scaling (dramatically improving
computational efficiency while significantly expanding model capacity) and
empowers stronger unified multimodal intelligence across vision, speech, and
language, representing a key step toward Artificial General Intelligence (AGI).
Compared to its predecessor, the upgraded version exhibits substantial
improvements across multimodal understanding and generation. We significantly
advance speech recognition capabilities, achieving state-of-the-art performance
in contextual ASR and highly competitive results in dialect-aware ASR. In image
generation, Ming-Flash-Omni introduces high-fidelity text rendering and
demonstrates marked gains in scene consistency and identity preservation during
image editing. Furthermore, Ming-Flash-Omni introduces generative segmentation,
a capability that not only achieves strong standalone segmentation performance
but also enhances spatial control in image generation and improves editing
consistency. Notably, Ming-Flash-Omni achieves state-of-the-art results in
text-to-image generation and generative segmentation, and sets new records on
all 12 contextual ASR benchmarks, all within a single unified architecture.