ChatPaper.aiChatPaper

VILA:ビジュアル言語モデルの事前学習について

VILA: On Pre-training for Visual Language Models

December 12, 2023
著者: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
cs.AI

要旨

視覚言語モデル(VLM)は、大規模言語モデルの最近の成功に伴い急速に進化しています。視覚入力をLLMに拡張するための視覚指示チューニングに関する取り組みが増えていますが、モデルが両モダリティに対して共同モデリングを学習する視覚言語事前学習プロセスの詳細な研究は不足しています。本研究では、LLMを段階的にVLMへ拡張するための設計オプションを、制御可能な比較を通じて検証します。主な発見として、(1) 事前学習中にLLMを凍結することで適切なゼロショット性能が得られるが、コンテキスト内学習能力にはLLMの凍結解除が必要であること、(2) インタリーブされた事前学習データが有益であり、画像-テキストペアのみでは最適ではないこと、(3) 指示ファインチューニング中にテキストのみの指示データを画像-テキストデータに再ブレンドすることで、テキストのみのタスクの性能低下を防ぐだけでなく、VLMタスクの精度も向上することが挙げられます。これらの強化された事前学習レシピを用いて、VILAという視覚言語モデルファミリーを構築しました。VILAは、主要なベンチマークにおいてLLaVA-1.5などの最先端モデルを一貫して上回り、余計な工夫なしで優れた性能を発揮します。さらに、マルチモーダル事前学習は、VILAの魅力的な特性を明らかにするのに役立ちます。これには、複数画像推論、強化されたコンテキスト内学習、およびより優れた世界知識が含まれます。
English
Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge.
PDF232December 15, 2024