InternVL3 : Exploration de techniques avancées d'entraînement et de stratégies au moment du test pour les modèles multimodaux open-source
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
April 14, 2025
Auteurs: Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Résumé
Nous présentons InternVL3, une avancée majeure dans la série InternVL, caractérisée par un paradigme de pré-entraînement multimodal natif. Plutôt que d'adapter un grand modèle de langage (LLM) textuel en un modèle de langage multimodal (MLLM) prenant en charge les entrées visuelles, InternVL3 acquiert conjointement des capacités multimodales et linguistiques à partir de données multimodales diversifiées et de corpus textuels purs lors d'une seule étape de pré-entraînement. Ce paradigme de formation unifié résout efficacement les complexités et les défis d'alignement couramment rencontrés dans les pipelines de formation post-hoc conventionnels pour les MLLM. Pour améliorer davantage les performances et l'évolutivité, InternVL3 intègre un encodage de position visuelle variable (V2PE) pour supporter des contextes multimodaux étendus, utilise des techniques avancées de post-formation telles que le réglage fin supervisé (SFT) et l'optimisation mixte des préférences (MPO), et adopte des stratégies de mise à l'échelle au moment du test ainsi qu'une infrastructure de formation optimisée. Des évaluations empiriques approfondies démontrent qu'InternVL3 offre des performances supérieures sur un large éventail de tâches multimodales. En particulier, InternVL3-78B atteint un score de 72,2 sur le benchmark MMMU, établissant un nouvel état de l'art parmi les MLLM open-source. Ses capacités restent très compétitives par rapport aux modèles propriétaires leaders, y compris ChatGPT-4o, Claude 3.5 Sonnet et Gemini 2.5 Pro, tout en maintenant une forte compétence en langage pur. Dans le respect des principes de la science ouverte, nous publierons publiquement les données de formation et les poids du modèle pour favoriser la recherche et le développement des MLLM de nouvelle génération.
English
We introduce InternVL3, a significant advancement in the InternVL series
featuring a native multimodal pre-training paradigm. Rather than adapting a
text-only large language model (LLM) into a multimodal large language model
(MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and
linguistic capabilities from both diverse multimodal data and pure-text corpora
during a single pre-training stage. This unified training paradigm effectively
addresses the complexities and alignment challenges commonly encountered in
conventional post-hoc training pipelines for MLLMs. To further improve
performance and scalability, InternVL3 incorporates variable visual position
encoding (V2PE) to support extended multimodal contexts, employs advanced
post-training techniques such as supervised fine-tuning (SFT) and mixed
preference optimization (MPO), and adopts test-time scaling strategies
alongside an optimized training infrastructure. Extensive empirical evaluations
demonstrate that InternVL3 delivers superior performance across a wide range of
multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the
MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its
capabilities remain highly competitive with leading proprietary models,
including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also
maintaining strong pure-language proficiency. In pursuit of open-science
principles, we will publicly release both the training data and model weights
to foster further research and development in next-generation MLLMs.Summary
AI-Generated Summary