MoAI: 大規模言語モデルと視覚モデルのための全知能の混合MoAI: Mixture of All Intelligence for Large Language and Vision Models
大規模言語モデル(LLM)と指示チューニングの台頭により、現在では指示チューニングされた大規模言語・視覚モデル(LLVM)がトレンドとなっています。このトレンドでは、特定の目的に合わせて多数の指示チューニングデータセットを入念にキュレーションするか、LLVMを拡大して膨大な視覚言語(VL)データを管理するかのいずれかのアプローチが取られています。しかし、現在のLLVMは、セグメンテーション、検出、シーングラフ生成(SGG)、光学文字認識(OCR)などの視覚知覚タスクにおいて、専門的なコンピュータビジョン(CV)モデルから得られる詳細かつ包括的な現実世界のシーン理解を無視しています。代わりに、既存のLLVMは主にそのLLMバックボーンの大規模な容量と創発的な能力に依存しています。そこで、我々は新しいLLVMである「Mixture of All Intelligence(MoAI)」を提案します。MoAIは、外部のセグメンテーション、検出、SGG、OCRモデルから得られた補助的な視覚情報を活用します。MoAIは、新たに導入された2つのモジュール、MoAI-CompressorとMoAI-Mixerを通じて動作します。外部のCVモデルの出力を言語化した後、MoAI-Compressorはそれらを整列・圧縮し、VLタスクに関連する補助的な視覚情報を効率的に利用します。次に、MoAI-Mixerは、Mixture of Expertsの概念を利用して、(1)視覚特徴、(2)外部CVモデルからの補助特徴、(3)言語特徴の3種類の知能を統合します。この統合により、MoAIは、モデルサイズを拡大したり、追加の視覚指示チューニングデータセットをキュレーションすることなく、オブジェクトの存在、位置、関係、OCRなど、現実世界のシーン理解に関連する多数のゼロショットVLタスクにおいて、オープンソースおよびクローズドソースのLLVMを大幅に上回る性能を発揮します。