인터널VL-U: 이해, 추론, 생성 및 편집을 위한 통합 멀티모달 모델의 대중화
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
March 10, 2026
저자: Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang
cs.AI
초록
통합형 멀티모달 모델(UMMs)은 이해, 추론, 생성, 편집 기능을 통합함에 따라 강력한 의미 이해 능력을 유지하는 것과 뛰어난 생성 능력을 획득하는 것 사이의 본질적 트레이드오프에 직면합니다. 본 보고서에서는 경량의 40억 파라미터 UMM인 InternVL-U를 소개하며, 이러한 역량을 통합 프레임워크 내에서 보편화합니다. 통합 맥락 모델링과 분리된 시각 표현을 활용한 모달리티 특화 모듈식 설계 원칙에 따라, InternVL-U는 최첨단 멀티모달 대형 언어 모델(MLLM)과 전문적인 MMDiT 기반 시각 생성 헤드를 통합합니다. 심미적 생성과 고수준 지능 간의 격차를 더욱 좁히기 위해, 텍스트 렌더링 및 과학적 추론과 같은 높은 의미 밀도 작업을 대상으로 포괄적인 데이터 합성 파이프라인을 구축합니다. 이는 사고의 연쇄(CoT)를 활용하여 추론 중심 패러다임 하에서 추상적인 사용자 의도를 세부적인 시각 생성 요소와 더 잘 정렬합니다. 광범위한 실험을 통해 InternVL-U가 우수한 성능-효율성 균형을 달성함을 입증합니다. 단 40억 파라미터만 사용함에도 불구하고, 본 모델은 BAGEL(140억)과 같이 3배 이상 큰 규모의 통합 기준 모델들을 다양한 생성 및 편집 작업에서 지속적으로 능가하면서도 강력한 멀티모달 이해 및 추론 능력을 유지합니다.
English
Unified multimodal models (UMMs) that integrate understanding, reasoning, generation, and editing face inherent trade-offs between maintaining strong semantic comprehension and acquiring powerful generation capabilities. In this report, we present InternVL-U, a lightweight 4B-parameter UMM that democratizes these capabilities within a unified framework. Guided by the principles of unified contextual modeling and modality-specific modular design with decoupled visual representations, InternVL-U integrates a state-of-the-art Multimodal Large Language Model (MLLM) with a specialized MMDiT-based visual generation head. To further bridge the gap between aesthetic generation and high-level intelligence, we construct a comprehensive data synthesis pipeline targeting high-semantic-density tasks, such as text rendering and scientific reasoning, under a reasoning-centric paradigm that leverages Chain-of-Thought (CoT) to better align abstract user intent with fine-grained visual generation details. Extensive experiments demonstrate that InternVL-U achieves a superior performance - efficiency balance. Despite using only 4B parameters, it consistently outperforms unified baseline models with over 3x larger scales such as BAGEL (14B) on various generation and editing tasks, while retaining strong multimodal understanding and reasoning capabilities.