VILA:ビジュアル言語モデルの事前学習について
VILA: On Pre-training for Visual Language Models
December 12, 2023
著者: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
cs.AI
要旨
視覚言語モデル(VLM)は、大規模言語モデルの最近の成功に伴い急速に進化しています。視覚入力をLLMに拡張するための視覚指示チューニングに関する取り組みが増えていますが、モデルが両モダリティに対して共同モデリングを学習する視覚言語事前学習プロセスの詳細な研究は不足しています。本研究では、LLMを段階的にVLMへ拡張するための設計オプションを、制御可能な比較を通じて検証します。主な発見として、(1) 事前学習中にLLMを凍結することで適切なゼロショット性能が得られるが、コンテキスト内学習能力にはLLMの凍結解除が必要であること、(2) インタリーブされた事前学習データが有益であり、画像-テキストペアのみでは最適ではないこと、(3) 指示ファインチューニング中にテキストのみの指示データを画像-テキストデータに再ブレンドすることで、テキストのみのタスクの性能低下を防ぐだけでなく、VLMタスクの精度も向上することが挙げられます。これらの強化された事前学習レシピを用いて、VILAという視覚言語モデルファミリーを構築しました。VILAは、主要なベンチマークにおいてLLaVA-1.5などの最先端モデルを一貫して上回り、余計な工夫なしで優れた性能を発揮します。さらに、マルチモーダル事前学習は、VILAの魅力的な特性を明らかにするのに役立ちます。これには、複数画像推論、強化されたコンテキスト内学習、およびより優れた世界知識が含まれます。
English
Visual language models (VLMs) rapidly progressed with the recent success of
large language models. There have been growing efforts on visual instruction
tuning to extend the LLM with visual inputs, but lacks an in-depth study of the
visual language pre-training process, where the model learns to perform joint
modeling on both modalities. In this work, we examine the design options for
VLM pre-training by augmenting LLM towards VLM through step-by-step
controllable comparisons. We introduce three main findings: (1) freezing LLMs
during pre-training can achieve decent zero-shot performance, but lack
in-context learning capability, which requires unfreezing the LLM; (2)
interleaved pre-training data is beneficial whereas image-text pairs alone are
not optimal; (3) re-blending text-only instruction data to image-text data
during instruction fine-tuning not only remedies the degradation of text-only
tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe
we build VILA, a Visual Language model family that consistently outperforms the
state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells
and whistles. Multi-modal pre-training also helps unveil appealing properties
of VILA, including multi-image reasoning, enhanced in-context learning, and
better world knowledge.