Perceptio: 空間トークン生成による視覚言語モデルの知覚機能強化
Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation
March 19, 2026
著者: Yuchen Li, Amanmeet Garg, Shalini Chaudhuri, Rui Zhao, Garin Kessler
cs.AI
要旨
大規模視覚言語モデル(LVLM)は意味理解において優れる一方、複雑な幾何学を空間解釈を生成することなく暗黙的に推論する必要があるため、細粒度の空間的基礎付けに課題を残す。本論文ではPerceptioを提案する。これは、自己回帰系列内で直接生成される明示的なセマンティックセグメンテーショントークンと深度トークンを介して、2Dおよび3Dの空間推論能力を備えた知覚強化型LVLMである。具体的には、(i) 強力な単眼教師モデルからVQ-VAE深度コードブックを蒸留し、密な深度をコンパクトな系列にトークン化し、(ii) LLM内部にSAM2ベースのセマンティックセグメンテーショントークンとVQ-VAE深度トークンを統合し、モデルがまず空間トークンを生成した上で回答するようにした。深度トークン生成を安定化させるため、新規の複合深度トークン目的関数(マーカー、トークン、カウント損失)と微分可能再構成のためのソフトマージ手法を導入する。多様なデータセットに跨るマルチタスク共同学習戦略を採用し、モデルが知覚トークンを学習して複数の下流タスクに取り組めるようにした。InternVLを基盤とするPerceptioは、ベンチマークで最先端の性能を達成:RefCOCO/+/gの参照表現セグメンテーションでcIoUをそれぞれ+0.8/+1.4/+1.1向上、HardBLINK空間理解精度を10.3%、MMBench精度を1.0%向上させ、明示的な空間的思考の連鎖がLVLMの空間的基礎付けを実質的に強化することを実証した。
English
Large Vision Language Models (LVLMs) excel at semantic understanding but struggle with fine grained spatial grounding, as the model must implicitly infer complex geometry without ever producing a spatial interpretation. We present Perceptio, a perception enhanced LVLM with 2D and 3D spatial reasoning abilities, enabled via explicit semantic segmentation tokens and depth tokens generated directly within the autoregressive sequence. Concretely, we (i) distill a VQVAE depth codebook from a strong monocular teacher to tokenize dense depth into compact sequences, and (ii) integrate SAM2 based semantic segmentation tokens and VQ-VAE depth tokens inside the LLM so the model first emits spatial tokens and then answers. To stabilize depth token generation, we introduce novel composite depth-token objectives (marker, token, and count losses) and a soft-merging technique for differentiable reconstruction. We adopt a multi-task co-training strategy across diverse datasets, letting the model learn perception tokens to tackle multiple downstream tasks. Building on InternVL, Perceptio achieves state-of-the-art performance across benchmarks: improving referring expression segmentation by +0.8/+1.4/+1.1 cIoU on RefCOCO/+/g HardBLINK spatial understanding accuracy by 10.3%, and MMBench accuracy by 1.0%, demonstrating that explicit spatial chain-of-thought materially strengthens spatial grounding in LVLMs.