モデル、データ、およびテスト時のスケーリングによってオープンソースのマルチモーダルモデルの性能境界を拡張するExpanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
InternVL 2.5は、InternVL 2.0を基盤としつつ、トレーニングとテスト戦略、データ品質において大幅な改良を加えた先進的なマルチモーダル大規模言語モデル(MLLM)シリーズを紹介します。本研究では、モデルのスケーリングとパフォーマンスの関係に焦点を当て、ビジョンエンコーダ、言語モデル、データセットサイズ、およびテスト時の構成におけるパフォーマンスの傾向を系統的に探究します。多様なベンチマークを対象とした包括的な評価により、多分野推論、文書理解、マルチ画像/ビデオ理解、現実世界の理解、マルチモーダル幻覚検出、ビジュアルグラウンディング、多言語能力、純粋な言語処理などの分野で、InternVL 2.5は競争力のあるパフォーマンスを発揮し、GPT-4oやClaude-3.5-Sonnetなどの主要商用モデルに匹敵します。特筆すべきは、当モデルがMMMUベンチマークで70%を超える初のオープンソースMLLMであり、Chain-of-Thought(CoT)推論による3.7ポイントの改善を達成し、テスト時のスケーリングに強い潜在能力を示しています。このモデルが、マルチモーダルAIシステムの開発と適用に新たな基準を設定することでオープンソースコミュニティに貢献することを期待しています。HuggingFaceデモはこちらをご覧ください:https://huggingface.co/spaces/OpenGVLab/InternVL