Zoom senza Zoom: Distillazione da Regione a Immagine per una Percezione Multimodale Fine-Grained

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLM) eccellono in una comprensione visiva ampia, ma faticano ancora con la percezione fine, dove l'evidenza decisiva è piccola e facilmente sopraffatta dal contesto globale. I recenti metodi "Pensare-con-le-Immagini" alleviano questo problema zoomando iterativamente sulle regioni di interesse durante l'inferenza, ma comportano un'alta latenza a causa di ripetute chiamate a strumenti e ricodifiche visive. Per affrontare ciò, proponiamo la Distillazione da Regione a Immagine, che trasforma lo zoom da uno strumento di inferenza a un primitivo di addestramento, internalizzando così i benefici dello zoom agentico in un unico passaggio in avanti di un MLLM. In particolare, prima zoomiamo su regioni micro-ritagliate per permettere a modelli insegnanti forti di generare dati VQA di alta qualità, e poi distilliamo questa supervisione basata sulle regioni nuovamente nell'immagine completa. Dopo l'addestramento su tali dati, il modello studente più piccolo migliora la percezione fine "a colpo d'occhio" senza l'uso di strumenti. Per valutare rigorosamente questa capacità, presentiamo inoltre ZoomBench, un benchmark annotato in modo ibrido composto da 845 dati VQA che coprono sei dimensioni percettive fini, insieme a un protocollo a doppia vista che quantifica il "divario di zoom" globale-regionale. Gli esperimenti mostrano che i nostri modelli raggiungono prestazioni leader su molteplici benchmark di percezione fine e migliorano anche la cognizione multimodale generale su benchmark come il ragionamento visivo e gli agenti GUI. Discutiamo inoltre quando il "Pensare-con-le-Immagini" è necessario rispetto a quando i suoi vantaggi possono essere distillati in un unico passaggio in avanti. Il nostro codice è disponibile all'indirizzo https://github.com/inclusionAI/Zooming-without-Zooming.

English

Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.

Zoom senza Zoom: Distillazione da Regione a Immagine per una Percezione Multimodale Fine-Grained

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Abstract

Support