Zooming ohne Zooming: Region-zu-Bild-Distillation für feinkörnige multimodale Wahrnehmung
Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
February 12, 2026
papers.authors: Lai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) zeichnen sich durch ein breites visuelles Verständnis aus, haben aber nach wie vor Schwierigkeiten mit der feingranularen Wahrnehmung, bei der entscheidende Hinweise klein sind und leicht vom globalen Kontext überlagert werden. Kürzlich entwickelte "Thinking-with-Images"-Methoden mildern dieses Problem, indem sie während des Inferenzvorgangs iterativ interessante Regionen heran- und herauszoomen, verursachen jedoch aufgrund wiederholter Tool-Aufrufe und visueller Neuencodierung hohe Latenzzeiten. Um dies zu beheben, schlagen wir Region-to-Image Distillation vor, wodurch das Zoomen von einem Inferenz-Tool zu einem Training-Primitive wird und so die Vorteile des agentenbasierten Zoomens in einem einzigen Vorwärtsdurchlauf eines MLLM internalisiert werden. Insbesondere zoomen wir zunächst in mikrobeschnittene Regionen hinein, um starken Teacher-Modellen die Generierung hochwertiger VQA-Daten zu ermöglichen, und destillieren dann diese regionsbasierte Supervision zurück auf das Vollbild. Nach dem Training mit solchen Daten verbessert das kleinere Student-Modell die "Single-Glance"-feingranulare Wahrnehmung ohne Tool-Einsatz. Um diese Fähigkeit rigoros zu evaluieren, stellen wir außerdem ZoomBench vor, einen hybrid-annotierten Benchmark mit 845 VQA-Daten, die sechs feingranulare Wahrnehmungsdimensionen abdecken, zusammen mit einem Dual-View-Protokoll, das die globale-regionale "Zooming-Lücke" quantifiziert. Experimente zeigen, dass unsere Modelle eine führende Leistung über mehrere Benchmarks für feingranulare Wahrnehmung hinweg erzielen und auch die allgemeine multimodale Kognition auf Benchmarks wie visuelles Reasoning und GUI-Agenten verbessern. Wir diskutieren ferner, wann "Thinking-with-Images" notwendig ist versus wann dessen Gewinne in einen einzelnen Vorwärtsdurchlauf destilliert werden können. Unser Code ist verfügbar unter https://github.com/inclusionAI/Zooming-without-Zooming.
English
Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.