潜在暗黙的視覚推論
Latent Implicit Visual Reasoning
December 24, 2025
著者: Kelvin Li, Chuyi Shang, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Roei Herzig
cs.AI
要旨
大規模マルチモーダルモデル(LMM)は大きな進歩を遂げているものの、依然としてテキスト中心であり、言語を中核的な推論モダリティとして依存している。その結果、視覚情報が主体となる推論タスクの処理能力に限界がある。最近のアプローチでは、補助画像、深度マップ、または画像クロップを用いて中間的な視覚ステップを監督することでこの問題に対処しようとしている。しかし、これらの戦略は「有用な」視覚的抽象化の形状に制限的な事前知識を課し、重い注釈コストを追加し、タスク間での汎化が困難である。この重要な限界に対処するため、我々は明示的な監督なしでLMMが視覚的推論トークンを発見し利用するように訓練する、タスク非依存のメカニズムを提案する。これらのトークンは大域的に注意を払い、タスク適応的な方法で画像を再エンコードするため、手作りの監督なしに関連する視覚情報を抽出できる。我々の手法は直接的なファインチューニングを上回り、中間抽象化が特定しにくいタスクを含む多様な視覚中心タスクにおいて最先端の結果を達成するとともに、マルチタスク指示チューニングへの汎化も実現する。
English
While Large Multimodal Models (LMMs) have made significant progress, they remain largely text-centric, relying on language as their core reasoning modality. As a result, they are limited in their ability to handle reasoning tasks that are predominantly visual. Recent approaches have sought to address this by supervising intermediate visual steps with helper images, depth maps, or image crops. However, these strategies impose restrictive priors on what "useful" visual abstractions look like, add heavy annotation costs, and struggle to generalize across tasks. To address this critical limitation, we propose a task-agnostic mechanism that trains LMMs to discover and use visual reasoning tokens without explicit supervision. These tokens attend globally and re-encode the image in a task-adaptive way, enabling the model to extract relevant visual information without hand-crafted supervision. Our approach outperforms direct fine-tuning and achieves state-of-the-art results on a diverse range of vision-centric tasks -- including those where intermediate abstractions are hard to specify -- while also generalizing to multi-task instruction tuning.