Zoom sem Zoom: Distilação de Região para Imagem para Percepção Multimodal de Granulação Fina

Resumo

Os Modelos de Linguagem Grande Multimodais (MLLMs) destacam-se na compreensão visual ampla, mas ainda lutam com a perceção de pormenor, onde a evidência decisiva é pequena e facilmente ofuscada pelo contexto global. Métodos recentes de "Pensar com Imagens" atenuam isto ao ampliar e reduzir iterativamente as regiões de interesse durante a inferência, mas incorrem em alta latência devido a chamadas repetidas de ferramentas e re-codificação visual. Para resolver isto, propomos a Destilação de Região para Imagem, que transforma a ampliação de uma ferramenta de inferência num primitivo de treino, internalizando assim os benefícios da ampliação agentica num único *forward pass* de um MLLM. Especificamente, começamos por ampliar regiões micro-recortadas para permitir que modelos professores fortes gerem dados de VQA de alta qualidade, e depois destilamos esta supervisão baseada em regiões de volta para a imagem completa. Após o treino com tais dados, o modelo estudante menor melhora a perceção de pormenor de "um único olhar" sem uso de ferramentas. Para avaliar rigorosamente esta capacidade, apresentamos ainda o ZoomBench, um *benchmark* híbrido-annotado com 845 dados de VQA abrangendo seis dimensões perceptivas de pormenor, juntamente com um protocolo de visão dupla que quantifica o "hiato de ampliação" global-regional. Experiências mostram que os nossos modelos alcançam desempenho líder em vários *benchmarks* de perceção de pormenor, e também melhoram a cognição multimodal geral em *benchmarks* como raciocínio visual e agentes de interface gráfica. Discutimos ainda quando o "Pensar com Imagens" é necessário versus quando os seus ganhos podem ser destilados num único *forward pass*. O nosso código está disponível em https://github.com/inclusionAI/Zooming-without-Zooming.

English

Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.

Zoom sem Zoom: Distilação de Região para Imagem para Percepção Multimodal de Granulação Fina

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Resumo

Support