ChatPaper.aiChatPaper

視覚的指示チューニングによる改良されたベースライン

Improved Baselines with Visual Instruction Tuning

October 5, 2023
著者: Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee
cs.AI

要旨

大規模マルチモーダルモデル(LMM)は近年、視覚的指示チューニングにより有望な進展を示している。本稿では、LLaVAの全結合型視覚言語クロスモーダルコネクタが驚くべき性能とデータ効率を発揮することを実証する。LLaVAに対し、MLP投影を施したCLIP-ViT-L-336pxの採用や、学術タスク指向のVQAデータへの簡潔な応答フォーマット指示の追加といった簡易な修正を加えることで、11のベンチマークで最先端性能を達成する強力なベースラインを確立した。最終的な13Bチェックポイントは、公開されているわずか120万データを用い、単一の8-A100ノードで約1日という短期間で学習を完了する。本成果が最先端LMM研究のアクセシビリティ向上に寄与することを期待する。コードとモデルは公開予定である。
English
Large multimodal models (LMM) have recently shown encouraging progress with visual instruction tuning. In this note, we show that the fully-connected vision-language cross-modal connector in LLaVA is surprisingly powerful and data-efficient. With simple modifications to LLaVA, namely, using CLIP-ViT-L-336px with an MLP projection and adding academic-task-oriented VQA data with simple response formatting prompts, we establish stronger baselines that achieve state-of-the-art across 11 benchmarks. Our final 13B checkpoint uses merely 1.2M publicly available data, and finishes full training in ~1 day on a single 8-A100 node. We hope this can make state-of-the-art LMM research more accessible. Code and model will be publicly available.
PDF398December 14, 2025