Meteor: 大規模言語・視覚モデルのためのMambaベースの根拠探索Meteor: Mamba-based Traversal of Rationale for Large Language and Vision
Models
大規模言語・視覚モデル(LLVM)の急速な発展は、視覚的指示チューニングの進歩によって推進されてきた。最近では、オープンソースのLLVMが高品質な視覚的指示チューニングデータセットを整備し、追加の視覚エンコーダーや複数のコンピュータビジョンモデルを活用することで、強力なクローズドソースのLLVMとの性能差を縮めている。これらの進展は、基本的な画像理解、常識や非物体概念(例:チャート、図表、記号、標識、数学問題)に関する実世界の知識、複雑な質問を解決するための段階的な手順など、多様な能力に必要な多面的な情報に起因している。この多面的な情報を基に、我々は新しい効率的なLLVMであるMambaベースの根拠トラバーサル(Meteor)を提案し、多面的な根拠を活用して理解と回答能力を強化する。豊富な情報を含む長い根拠を埋め込むために、線形時間計算量で逐次データを処理可能なMambaアーキテクチャを採用する。我々は、根拠の効率的な埋め込みを促進する新しい概念である根拠トラバーサルを導入する。その後、バックボーンのマルチモーダル言語モデル(MLM)を訓練し、根拠の助けを借りて回答を生成する。これらのステップを通じて、Meteorは、モデルサイズを拡大したり、追加の視覚エンコーダーやコンピュータビジョンモデルを採用することなく、多様な能力を必要とする複数の評価ベンチマークにおいて、視覚言語性能の大幅な向上を達成する。