InternVL3: オープンソースマルチモーダルモデルのための高度なトレーニングとテスト時レシピの探求InternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
私たちは、ネイティブなマルチモーダル事前学習パラダイムを特徴とするInternVLシリーズの大幅な進化版であるInternVL3を紹介します。テキスト専用の大規模言語モデル(LLM)を視覚入力をサポートするマルチモーダル大規模言語モデル(MLLM)に適応させるのではなく、InternVL3は、単一の事前学習段階で多様なマルチモーダルデータと純粋なテキストコーパスの両方からマルチモーダル能力と言語能力を同時に獲得します。この統一された学習パラダイムは、従来のMLLMの事後学習パイプラインでよく見られる複雑さとアライメントの課題を効果的に解決します。さらに、パフォーマンスとスケーラビリティを向上させるため、InternVL3は拡張されたマルチモーダルコンテキストをサポートする可変視覚位置エンコーディング(V2PE)を組み込み、教師ありファインチューニング(SFT)や混合嗜好最適化(MPO)などの高度な事後学習技術を採用し、テスト時のスケーリング戦略と最適化された学習インフラを導入しています。広範な実証評価により、InternVL3が多様なマルチモーダルタスクで優れた性能を発揮することが示されています。特に、InternVL3-78BはMMMUベンチマークで72.2のスコアを達成し、オープンソースのMLLMの中で新たな最先端を樹立しました。その能力は、ChatGPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proなどの主要なプロプライエタリモデルと高い競争力を維持しつつ、純粋な言語能力も強く保持しています。オープンサイエンスの原則に則り、次世代MLLMの研究開発を促進するため、学習データとモデル重みを公開する予定です。