知覚トークンは、多様な言語モデルにおいて視覚推論を向上させる。
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
December 4, 2024
著者: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI
要旨
マルチモーダル言語モデル(MLM)は、特殊なモデルが優れる基本的な視覚認識タスクにおいて依然として課題に直面しています。3D構造に関する推論が必要なタスクでは深度推定が有益であり、2Dオブジェクトインスタンスに関する推論では物体検出が有益です。しかし、MLMは中間的な深度やボックスを生成して推論することができません。関連データでMLMをファインチューニングしても汎化性能が高くなく、専門のビジョンツールに計算を外部委託することは計算コストが高くメモリ効率が悪いです。この課題に対処するために、言語だけでは不十分な推論タスクを支援するために設計された固有の画像表現である知覚トークンを導入します。知覚トークンは、言語モデルの思考連鎖プロンプトに似た補助的な推論トークンとして機能します。例えば、深度関連のタスクでは、知覚トークンで拡張されたMLMは、トークンとして深度マップを生成することで問題を効果的に解決できます。私たちは、視覚入力に対する推論能力を向上させるためにMLMに知覚トークンを追加するAURORAというトレーニング方法を提案します。AURORAは、VQVAEを活用して中間的な画像表現(例:深度マップ)をトークン化し、複数のタスクトレーニングフレームワークで使用されるバウンディングボックストークンに変換します。AURORAは、カウントベンチマーク全体でファインチューニング手法を上回る汎化性能を実現し、BLINKで+10.8%、CVBenchで+11.3%、SEED-Benchで+8.3%の改善を達成しました。また、BLINKでは相対的な深度でも+6%以上の改善が見られます。知覚トークンを用いることで、AURORAはMLMの言語ベースの推論を超えた視覚推論能力を向上させ、より効果的な視覚推論の可能性を切り拓いています。
English
Multimodal language models (MLMs) still face challenges in fundamental visual
perception tasks where specialized models excel. Tasks requiring reasoning
about 3D structures benefit from depth estimation, and reasoning about 2D
object instances benefits from object detection. Yet, MLMs can not produce
intermediate depth or boxes to reason over. Finetuning MLMs on relevant data
doesn't generalize well and outsourcing computation to specialized vision tools
is too compute-intensive and memory-inefficient. To address this, we introduce
Perception Tokens, intrinsic image representations designed to assist reasoning
tasks where language is insufficient. Perception tokens act as auxiliary
reasoning tokens, akin to chain-of-thought prompts in language models. For
example, in a depth-related task, an MLM augmented with perception tokens can
reason by generating a depth map as tokens, enabling it to solve the problem
effectively. We propose AURORA, a training method that augments MLMs with
perception tokens for improved reasoning over visual inputs. AURORA leverages a
VQVAE to transform intermediate image representations, such as depth maps into
a tokenized format and bounding box tokens, which is then used in a multi-task
training framework. AURORA achieves notable improvements across counting
benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench,
outperforming finetuning approaches in generalization across datasets. It also
improves on relative depth: over +6% on BLINK. With perception tokens, AURORA
expands the scope of MLMs beyond language-based reasoning, paving the way for
more effective visual reasoning capabilities.Summary
AI-Generated Summary