InternVL3: 오픈소스 멀티모달 모델을 위한 고급 학습 및 테스트 시점 기법 탐구
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
April 14, 2025
저자: Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
초록
우리는 원천적인 멀티모달 사전 학습 패러다임을 특징으로 하는 InternVL 시리즈의 중요한 진보인 InternVL3를 소개한다. 텍스트 전용 대형 언어 모델(LLM)을 시각적 입력을 지원하는 멀티모달 대형 언어 모델(MLLM)로 적응시키는 대신, InternVL3는 단일 사전 학습 단계에서 다양한 멀티모달 데이터와 순수 텍스트 코퍼스로부터 멀티모달 및 언어적 능력을 공동으로 획득한다. 이 통합된 학습 패러다임은 기존의 MLLM을 위한 사후 학습 파이프라인에서 흔히 발생하는 복잡성과 정렬 문제를 효과적으로 해결한다. 성능과 확장성을 더욱 개선하기 위해, InternVL3는 확장된 멀티모달 컨텍스트를 지원하기 위한 가변 시각적 위치 인코딩(V2PE)을 도입하고, 지도 미세 조정(SFT) 및 혼합 선호 최적화(MPO)와 같은 고급 사후 학습 기법을 활용하며, 테스트 시 스케일링 전략과 최적화된 학습 인프라를 채택한다. 광범위한 실험적 평가를 통해 InternVL3가 다양한 멀티모달 작업에서 우수한 성능을 보여줌을 입증했다. 특히, InternVL3-78B는 MMMU 벤치마크에서 72.2점을 달성하여 오픈소스 MLLM 중 새로운 최첨단 기록을 세웠다. 이 모델의 능력은 ChatGPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro와 같은 선도적인 독점 모델과도 매우 경쟁력이 있으며, 동시에 강력한 순수 언어 능력을 유지한다. 오픈 사이언스 원칙을 추구하며, 우리는 차세대 MLLM 연구 및 개발을 촉진하기 위해 학습 데이터와 모델 가중치를 공개할 예정이다.
English
We introduce InternVL3, a significant advancement in the InternVL series
featuring a native multimodal pre-training paradigm. Rather than adapting a
text-only large language model (LLM) into a multimodal large language model
(MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and
linguistic capabilities from both diverse multimodal data and pure-text corpora
during a single pre-training stage. This unified training paradigm effectively
addresses the complexities and alignment challenges commonly encountered in
conventional post-hoc training pipelines for MLLMs. To further improve
performance and scalability, InternVL3 incorporates variable visual position
encoding (V2PE) to support extended multimodal contexts, employs advanced
post-training techniques such as supervised fine-tuning (SFT) and mixed
preference optimization (MPO), and adopts test-time scaling strategies
alongside an optimized training infrastructure. Extensive empirical evaluations
demonstrate that InternVL3 delivers superior performance across a wide range of
multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the
MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its
capabilities remain highly competitive with leading proprietary models,
including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also
maintaining strong pure-language proficiency. In pursuit of open-science
principles, we will publicly release both the training data and model weights
to foster further research and development in next-generation MLLMs.Summary
AI-Generated Summary