ズーミングなしのズーミング:細粒度マルチモーダル知覚のための領域から画像への蒸留 (またはより自然な訳として) 領域から画像への知識蒸縮:細粒度マルチモーダル知覚におけるズーム操作不要のアプローチ
Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
February 12, 2026
著者: Lai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は広範な視覚理解に優れる一方、決定的な証拠が微小で大域的な文脈に埋もれやすい細粒度知覚には依然として課題を抱えています。近年の「画像を用いた思考」手法は、推論時に注目領域を反復的に拡大・縮小することでこの問題を緩和しますが、繰り返しのツール呼び出しと視覚的再エンコーディングにより高い遅延が生じます。この課題に対処するため、我々は領域から画像への知識蒸留(Region-to-Image Distillation)を提案します。これにより、拡大操作を推論時のツールから学習時の基本要素へと変換し、エージェント的な拡大の利点をMLLMの単一フォワードパスに内在化させます。具体的には、まず微細なクロップ領域を拡大して強力な教師モデルに高品質なVQAデータを生成させ、その後この領域に根ざした監督信号を元画像へ蒸留します。このようなデータで学習後、小型の生徒モデルはツール使用なしで「一瞥による」細粒度知覚能力を向上させます。この能力を厳密に評価するため、我々は6つの細粒度知覚次元にわたる845のVQAデータからなるハイブリッド注釈ベンチマーク「ZoomBench」を開発し、大域-領域間の「拡大ギャップ」を定量化するデュアルビュープロトコルを導入しました。実験結果から、提案モデルは複数の細粒度知覚ベンチマークで最先端の性能を達成し、視覚推論やGUIエージェントなどの一般的なマルチモーダル認知タスクも改善することが示されました。さらに、「画像を用いた思考」が必須となる場合と、その利益が単一フォワードパスへ蒸留可能な場合の境界について考察します。コードはhttps://github.com/inclusionAI/Zooming-without-Zooming で公開しています。
English
Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.