Cambrian-1: 完全オープンなビジョン中心型マルチモーダルLLMの探求Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
私たちは、ビジョン中心のアプローチで設計されたマルチモーダル大規模言語モデル(MLLM)ファミリーであるCambrian-1を紹介します。より強力な言語モデルはマルチモーダル能力を向上させることができますが、ビジョンコンポーネントの設計選択はしばしば十分に検討されておらず、視覚表現学習研究から切り離されています。このギャップは、現実世界のシナリオにおける正確な感覚的基盤を妨げています。本研究では、LLMと視覚的指示チューニングをインターフェースとして使用し、20以上のビジョンエンコーダに基づく実験を通じて、自己教師あり、強教師あり、またはそれらの組み合わせといったさまざまなモデルとアーキテクチャに関する新たな洞察を提供します。既存のMLLMベンチマークを批判的に検証し、さまざまなタスクからの結果を統合し解釈する際の困難に対処し、新しいビジョン中心のベンチマークであるCV-Benchを導入します。視覚的基盤をさらに改善するために、高解像度のビジョンフィーチャーをLLMと統合しつつトークン数を削減する、動的で空間認識型のコネクタであるSpatial Vision Aggregator(SVA)を提案します。さらに、公開されているソースから高品質な視覚的指示チューニングデータをキュレーションする方法について議論し、データソースのバランスと分布比率の重要性を強調します。全体として、Cambrian-1は最先端の性能を達成するだけでなく、指示チューニングされたMLLMのための包括的でオープンなクックブックとしての役割も果たします。モデルの重み、コード、サポートツール、データセット、詳細な指示チューニングと評価のレシピを提供します。私たちのリリースが、マルチモーダルシステムと視覚表現学習の進歩を刺激し加速することを願っています。