少なく見て、正しく見る:マルチモーダル推論のための双方向知覚形成
See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
December 26, 2025
著者: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang
cs.AI
要旨
大規模視覚言語モデル(VLM)は、外部ツールを介して注入される中間的視覚手がかり、あるいは推論中に潜在視覚トークンとして生成される手がかりから恩恵を受けることが多い。しかし、これらのメカニズムは依然として細粒度の視覚的証拠(例:チャート内のポリライン)を見落としており、ドメイン横断的な汎化性能が低く、推論時のコストが高いという課題がある。本論文では、訓練中に知覚を形成する双方向の「どこを見るべきか」信号へと、質問条件付きマスク視覚を変換する双方向知覚形成(BiPS)を提案する。BiPSはまず、元の画像と質問に関連する領域のみを保持する証拠保存視覚との間にKL一貫性制約を適用し、支持ピクセルの粗いながらも完全なカバレッジを促進する。次に、元の画像と、重要なピクセルがマスクされ元の回答を支持しなくなる証拠除去視覚との間にKL分離制約を適用し、テキストのみに依存した近道(すなわちテキスト単独からの回答)を抑制し、細粒度の視覚依存を強制する。8つのベンチマークにわたる評価では、BiPSがQwen2.5-VL-7Bを平均8.2%向上させ、未見のデータセットや画像タイプへの強力なドメイン外汎化性能を示した。
English
Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.