ChatPaper.aiChatPaper

Zoom sem Zoom: Distilação de Região para Imagem para Percepção Multimodal de Granulação Fina

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

February 12, 2026
Autores: Lai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang
cs.AI

Resumo

Os Modelos de Linguagem Grande Multimodais (MLLMs) destacam-se na compreensão visual ampla, mas ainda lutam com a perceção de pormenor, onde a evidência decisiva é pequena e facilmente ofuscada pelo contexto global. Métodos recentes de "Pensar com Imagens" atenuam isto ao ampliar e reduzir iterativamente as regiões de interesse durante a inferência, mas incorrem em alta latência devido a chamadas repetidas de ferramentas e re-codificação visual. Para resolver isto, propomos a Destilação de Região para Imagem, que transforma a ampliação de uma ferramenta de inferência num primitivo de treino, internalizando assim os benefícios da ampliação agentica num único *forward pass* de um MLLM. Especificamente, começamos por ampliar regiões micro-recortadas para permitir que modelos professores fortes gerem dados de VQA de alta qualidade, e depois destilamos esta supervisão baseada em regiões de volta para a imagem completa. Após o treino com tais dados, o modelo estudante menor melhora a perceção de pormenor de "um único olhar" sem uso de ferramentas. Para avaliar rigorosamente esta capacidade, apresentamos ainda o ZoomBench, um *benchmark* híbrido-annotado com 845 dados de VQA abrangendo seis dimensões perceptivas de pormenor, juntamente com um protocolo de visão dupla que quantifica o "hiato de ampliação" global-regional. Experiências mostram que os nossos modelos alcançam desempenho líder em vários *benchmarks* de perceção de pormenor, e também melhoram a cognição multimodal geral em *benchmarks* como raciocínio visual e agentes de interface gráfica. Discutimos ainda quando o "Pensar com Imagens" é necessário versus quando os seus ganhos podem ser destilados num único *forward pass*. O nosso código está disponível em https://github.com/inclusionAI/Zooming-without-Zooming.
English
Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.
PDF603March 28, 2026