万能のタスクマスター、多数の専門家:汎用型粗密視覚言語モデルの設計
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
December 19, 2023
著者: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI
要旨
大規模言語モデル(LLMs)が視覚入力を処理する能力により、汎用ビジョンシステムが登場し、インストラクションチューニングを通じて様々な視覚-言語(VL)タスクを統合しています。しかし、視覚領域における入力-出力形式の多様性のため、既存の汎用モデルはセグメンテーションや複数画像入力と粗粒度タスクを単一のフレームワークに統合することに成功していません。本研究では、VistaLLMを紹介します。これは、単一および複数の入力画像に対して粗粒度と細粒度のVLタスクを扱う強力な視覚システムで、統一されたフレームワークを提供します。VistaLLMは、タスク記述を用いてグローバル埋め込みをフィルタリングし、多数の画像から圧縮され洗練された特徴を抽出するインストラクションガイド付き画像トークナイザーを利用します。さらに、VistaLLMは、バイナリセグメンテーションマスクをシーケンスとして表現するために勾配を考慮した適応サンプリング技術を採用し、以前使用されていた均一サンプリングを大幅に改善します。VistaLLMの望ましい能力を強化するために、680万サンプルを含む包括的な粗粒度から細粒度までのインストラクションチューニングデータセット、CoinItをキュレーションしました。また、複数画像のグラウンディングデータセットの不足に対処するため、新しいタスクであるAttCoSeg(属性レベル共セグメンテーション)を導入し、複数入力画像に対するモデルの推論とグラウンディング能力を向上させます。幅広いVおよびVLタスクにおける大規模な実験により、VistaLLMの有効性が実証され、全ての下流タスクにおいて強力なベースラインを超える一貫した最先端の性能を達成しています。プロジェクトページはhttps://shramanpramanick.github.io/VistaLLM/でご覧いただけます。
English
The ability of large language models (LLMs) to process visual inputs has
given rise to general-purpose vision systems, unifying various vision-language
(VL) tasks by instruction tuning. However, due to the enormous diversity in
input-output formats in the vision domain, existing general-purpose models fail
to successfully integrate segmentation and multi-image inputs with coarse-level
tasks into a single framework. In this work, we introduce VistaLLM, a powerful
visual system that addresses coarse- and fine-grained VL tasks over single and
multiple input images using a unified framework. VistaLLM utilizes an
instruction-guided image tokenizer that filters global embeddings using task
descriptions to extract compressed and refined features from numerous images.
Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to
represent binary segmentation masks as sequences, significantly improving over
previously used uniform sampling. To bolster the desired capability of
VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning
dataset with 6.8M samples. We also address the lack of multi-image grounding
datasets by introducing a novel task, AttCoSeg (Attribute-level
Co-Segmentation), which boosts the model's reasoning and grounding capability
over multiple input images. Extensive experiments on a wide range of V- and VL
tasks demonstrate the effectiveness of VistaLLM by achieving consistent
state-of-the-art performance over strong baselines across all downstream tasks.
Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.