REF-VLM:統一視覚デコーディングのためのトリプレットベース参照パラダイム
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
著者: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、大規模データセットでの学習後、多様な視覚-言語タスクにおいて強力なゼロショット能力を発揮します。しかし、セマンティックセグメンテーションやキーポイント検出などの密な予測タスクは、テキスト出力としてのみ表現される場合、MLLMsにとって重大な課題となります。同時に、視覚タスクのデコードに潜在埋め込みを利用する現在のMLLMsは、マルチタスク学習とマルチグラニュラリティのシナリオに対する適応性が限られています。本研究では、様々な視覚デコードタスクを統一的に訓練するためのエンドツーエンドフレームワークであるREF-VLMを提案します。複雑な視覚デコードシナリオに対処するため、Triplet-Based Referring Paradigm(TRP)を導入し、視覚デコードタスクにおける3つの重要な次元(概念、デコードタイプ、ターゲット)をトリプレット構造を通じて明示的に分離します。TRPは、構造化された表現学習を強化するためにシンボリックデリミタを使用し、モデル出力の解析可能性と解釈可能性を向上させます。さらに、25のタスクタイプにわたる1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットであるVisual-Task Instruction Following Dataset(VTInstruct)を構築しました。テキスト入力と出力に加えて、VT-Instructはポイント、ボックス、スクリブル、マスクなどの様々な視覚プロンプトを組み込み、ボックス、キーポイント、深度、マスクなどのテキストと視覚ユニットで構成される出力を生成します。異なる視覚プロンプトと視覚ユニットの組み合わせにより、多様なタスクタイプが生成され、REF-VLMの適用性が大幅に拡張されます。定性的および定量的な実験により、REF-VLMが様々な標準ベンチマークにおいて他のMLLMsを凌駕することが実証されました。コード、データセット、デモはhttps://github.com/MacavityT/REF-VLMで公開されています。
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary