MoAI: 大規模言語モデルと視覚モデルのための全知能の混合
MoAI: Mixture of All Intelligence for Large Language and Vision Models
March 12, 2024
著者: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
要旨
大規模言語モデル(LLM)と指示チューニングの台頭により、現在では指示チューニングされた大規模言語・視覚モデル(LLVM)がトレンドとなっています。このトレンドでは、特定の目的に合わせて多数の指示チューニングデータセットを入念にキュレーションするか、LLVMを拡大して膨大な視覚言語(VL)データを管理するかのいずれかのアプローチが取られています。しかし、現在のLLVMは、セグメンテーション、検出、シーングラフ生成(SGG)、光学文字認識(OCR)などの視覚知覚タスクにおいて、専門的なコンピュータビジョン(CV)モデルから得られる詳細かつ包括的な現実世界のシーン理解を無視しています。代わりに、既存のLLVMは主にそのLLMバックボーンの大規模な容量と創発的な能力に依存しています。そこで、我々は新しいLLVMである「Mixture of All Intelligence(MoAI)」を提案します。MoAIは、外部のセグメンテーション、検出、SGG、OCRモデルから得られた補助的な視覚情報を活用します。MoAIは、新たに導入された2つのモジュール、MoAI-CompressorとMoAI-Mixerを通じて動作します。外部のCVモデルの出力を言語化した後、MoAI-Compressorはそれらを整列・圧縮し、VLタスクに関連する補助的な視覚情報を効率的に利用します。次に、MoAI-Mixerは、Mixture of Expertsの概念を利用して、(1)視覚特徴、(2)外部CVモデルからの補助特徴、(3)言語特徴の3種類の知能を統合します。この統合により、MoAIは、モデルサイズを拡大したり、追加の視覚指示チューニングデータセットをキュレーションすることなく、オブジェクトの存在、位置、関係、OCRなど、現実世界のシーン理解に関連する多数のゼロショットVLタスクにおいて、オープンソースおよびクローズドソースのLLVMを大幅に上回る性能を発揮します。
English
The rise of large language models (LLMs) and instruction tuning has led to
the current trend of instruction-tuned large language and vision models
(LLVMs). This trend involves either meticulously curating numerous instruction
tuning datasets tailored to specific objectives or enlarging LLVMs to manage
vast amounts of vision language (VL) data. However, current LLVMs have
disregarded the detailed and comprehensive real-world scene understanding
available from specialized computer vision (CV) models in visual perception
tasks such as segmentation, detection, scene graph generation (SGG), and
optical character recognition (OCR). Instead, the existing LLVMs rely mainly on
the large capacity and emergent capabilities of their LLM backbones. Therefore,
we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages
auxiliary visual information obtained from the outputs of external
segmentation, detection, SGG, and OCR models. MoAI operates through two newly
introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the
outputs of the external CV models, the MoAI-Compressor aligns and condenses
them to efficiently use relevant auxiliary visual information for VL tasks.
MoAI-Mixer then blends three types of intelligence (1) visual features, (2)
auxiliary features from the external CV models, and (3) language features by
utilizing the concept of Mixture of Experts. Through this integration, MoAI
significantly outperforms both open-source and closed-source LLVMs in numerous
zero-shot VL tasks, particularly those related to real-world scene
understanding such as object existence, positions, relations, and OCR without
enlarging the model size or curating extra visual instruction tuning datasets.Summary
AI-Generated Summary