ChatPaper.aiChatPaper

InternVL3: オープンソースマルチモーダルモデルのための高度なトレーニングとテスト時レシピの探求

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

April 14, 2025
著者: Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI

要旨

私たちは、ネイティブなマルチモーダル事前学習パラダイムを特徴とするInternVLシリーズの大幅な進化版であるInternVL3を紹介します。テキスト専用の大規模言語モデル(LLM)を視覚入力をサポートするマルチモーダル大規模言語モデル(MLLM)に適応させるのではなく、InternVL3は、単一の事前学習段階で多様なマルチモーダルデータと純粋なテキストコーパスの両方からマルチモーダル能力と言語能力を同時に獲得します。この統一された学習パラダイムは、従来のMLLMの事後学習パイプラインでよく見られる複雑さとアライメントの課題を効果的に解決します。さらに、パフォーマンスとスケーラビリティを向上させるため、InternVL3は拡張されたマルチモーダルコンテキストをサポートする可変視覚位置エンコーディング(V2PE)を組み込み、教師ありファインチューニング(SFT)や混合嗜好最適化(MPO)などの高度な事後学習技術を採用し、テスト時のスケーリング戦略と最適化された学習インフラを導入しています。広範な実証評価により、InternVL3が多様なマルチモーダルタスクで優れた性能を発揮することが示されています。特に、InternVL3-78BはMMMUベンチマークで72.2のスコアを達成し、オープンソースのMLLMの中で新たな最先端を樹立しました。その能力は、ChatGPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proなどの主要なプロプライエタリモデルと高い競争力を維持しつつ、純粋な言語能力も強く保持しています。オープンサイエンスの原則に則り、次世代MLLMの研究開発を促進するため、学習データとモデル重みを公開する予定です。
English
We introduce InternVL3, a significant advancement in the InternVL series featuring a native multimodal pre-training paradigm. Rather than adapting a text-only large language model (LLM) into a multimodal large language model (MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and linguistic capabilities from both diverse multimodal data and pure-text corpora during a single pre-training stage. This unified training paradigm effectively addresses the complexities and alignment challenges commonly encountered in conventional post-hoc training pipelines for MLLMs. To further improve performance and scalability, InternVL3 incorporates variable visual position encoding (V2PE) to support extended multimodal contexts, employs advanced post-training techniques such as supervised fine-tuning (SFT) and mixed preference optimization (MPO), and adopts test-time scaling strategies alongside an optimized training infrastructure. Extensive empirical evaluations demonstrate that InternVL3 delivers superior performance across a wide range of multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its capabilities remain highly competitive with leading proprietary models, including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also maintaining strong pure-language proficiency. In pursuit of open-science principles, we will publicly release both the training data and model weights to foster further research and development in next-generation MLLMs.

Summary

AI-Generated Summary

PDF2508April 15, 2025