Zoomen zonder te zoomen: Regio-naar-beelddistillatie voor fijnmateriële multimodale perceptie

Samenvatting

Multimodale Large Language Models (MLLM's) blinken uit in brede visuele interpretatie, maar hebben nog steeds moeite met fijnmazige perceptie, waarbij het doorslaggevende bewijs klein is en gemakkelijk wordt overschaduwd door de globale context. Recente "Denken-met-Beelden"-methoden verlichten dit door iteratief in te zoomen op en uit te zoomen op regio's van belang tijdens de inferentie, maar lijden onder hoge latentie door herhaalde toolaanroepen en visuele hercodering. Om dit aan te pakken, stellen we Region-to-Image Distillation voor, wat inzoomen transformeert van een tool tijdens de inferentie naar een primitief tijdens de training, waardoor de voordelen van agent-achtig inzoomen worden geïnternaliseerd in een enkele voorwaartse passering van een MLLM. In het bijzonder zoomen we eerst in op micro-uitgesneden regio's om sterke leraarmodellen hoogwaardige VQA-gegevens te laten genereren, en destilleren we deze op regio's gebaseerde supervisie vervolgens terug naar de volledige afbeelding. Na training op dergelijke gegevens verbetert het kleinere studentenmodel de "enkele blik" fijnmazige perceptie zonder toolgebruik. Om deze capaciteit rigoureus te evalueren, presenteren we verder ZoomBench, een hybride geannoteerde benchmark van 845 VQA-gegevens verspreid over zes fijnmazige perceptuele dimensies, samen met een dual-view protocol dat het globale–regionale "inzoom-gat" kwantificeert. Experimenten tonen aan dat onze modellen toonaangevende prestaties bereiken op meerdere fijnmazige perceptiebenchmarks, en ook de algemene multimodale cognitie verbeteren op benchmarks zoals visueel redeneren en GUI-agenten. We bespreken verder wanneer "Denken-met-Beelden" noodzakelijk is versus wanneer de winst ervan kan worden gedestilleerd in een enkele voorwaartse passering. Onze code is beschikbaar op https://github.com/inclusionAI/Zooming-without-Zooming.

English

Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.

Zoomen zonder te zoomen: Regio-naar-beelddistillatie voor fijnmateriële multimodale perceptie

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Samenvatting

Support