Zoomer sans zoomer : Distillation de la région à l'image pour une perception multimodale fine

Résumé

Les modèles de langage multimodaux à grande échelle (MLLM) excellent dans la compréhension visuelle globale mais peinent encore avec la perception fine, où les preuves décisives sont petites et facilement noyées dans le contexte global. Les méthodes récentes de "raisonnement avec les images" atténuent ce problème en zoomant itérativement sur les régions d'intérêt lors de l'inférence, mais génèrent une latence élevée due aux appels répétés d'outils et au ré-encodage visuel. Pour résoudre ce problème, nous proposons la distillation région-vers-image, qui transforme le zoom d'un outil d'inférence en une primitive d'apprentissage, internalisant ainsi les bénéfices du zoom agentique dans une seule passe avant d'un MLLM. En particulier, nous zoomons d'abord sur des régions micro-rognées pour permettre à des modèles enseignants performants de générer des données VQA de haute qualité, puis distillons cette supervision ancrée régionalement vers l'image complète. Après entraînement sur ces données, le modèle étudiant plus petit améliore la perception fine "en un seul coup d'œil" sans utilisation d'outils. Pour évaluer rigoureusement cette capacité, nous présentons ZoomBench, un benchmark hybride annoté de 845 données VQA couvrant six dimensions perceptives fines, accompagné d'un protocole à double vue qui quantifie "l'écart de zoom" global-régional. Les expériences montrent que nos modèles obtiennent des performances leaders sur plusieurs benchmarks de perception fine, et améliorent également la cognition multimodale générale sur des benchmarks tels que le raisonnement visuel et les agents d'interface graphique. Nous discutons en outre des cas où le "raisonnement avec les images" est nécessaire versus ceux où ses gains peuvent être distillés en une seule passe avant. Notre code est disponible à l'adresse https://github.com/inclusionAI/Zooming-without-Zooming.

English

Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.

Zoomer sans zoomer : Distillation de la région à l'image pour une perception multimodale fine

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Résumé

Support