イーグル:エンコーダの混合を用いたマルチモーダルLLMの設計空間の探索Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of
Encoders
複雑な視覚情報を正確に解釈する能力は、多様な大規模言語モデル(MLLMs)の重要なトピックです。最近の研究では、高度な視覚認識が幻覚を軽減し、光学文字認識や文書解析などの解像度に敏感なタスクでのパフォーマンスを向上させることが示されています。いくつかの最近のMLLMsは、複数のビジョンエンコーダを組み合わせることでこの目標を達成しています。彼らの成功にもかかわらず、専門家の選択や複数のビジョン専門家の統合などの重要な側面に対処した体系的な比較や詳細な削減研究が不足しています。この研究は、ビジョンエンコーダと解像度の混合を使用したMLLMsの設計空間について包括的な探索を提供します。私たちの調査結果は、既存のさまざまな戦略に共通するいくつかの基本原則を明らかにし、効果的な設計アプローチを効率的に導きます。私たちは、単に補完的なビジョンエンコーダからの視覚トークンを連結するだけで、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることを発見しました。さらに、ビジョンに焦点を当てたエンコーダと言語トークンの間のギャップを埋めるために、Pre-Alignmentを導入し、モデルの整合性を向上させます。その結果生まれたMLLMsファミリー、Eagleは、主要なMLLMベンチマークで他の主要なオープンソースモデルを上回っています。モデルとコード:https://github.com/NVlabs/Eagle