ChatPaper.aiChatPaper

Zoom sin Zoom: Destilación de Región a Imagen para la Percepción Multimodal de Grano Fino

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

February 12, 2026
Autores: Lai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) sobresalen en la comprensión visual general, pero aún tienen dificultades con la percepción de grano fino, donde la evidencia decisiva es pequeña y se ve fácilmente superada por el contexto global. Los métodos recientes de "Pensar con Imágenes" mitigan esto al hacer zoom iterativo en las regiones de interés durante la inferencia, pero incurren en una alta latencia debido a las repetidas llamadas a herramientas y a la recodificación visual. Para abordar este problema, proponemos la Destilación de Región a Imagen, que transforma el zoom de una herramienta en tiempo de inferencia a una primitiva en tiempo de entrenamiento, internalizando así los beneficios del zoom agéntico en un único pase hacia adelante de un MLLM. En particular, primero hacemos zoom en regiones micro-recortadas para permitir que modelos docentes fuertes generen datos de VQA de alta calidad, y luego destilamos esta supervisión basada en regiones de vuelta a la imagen completa. Después del entrenamiento con tales datos, el modelo estudiante más pequeño mejora la percepción de grano fino de "un solo vistazo" sin usar herramientas. Para evaluar rigurosamente esta capacidad, presentamos además ZoomBench, un benchmark de anotación híbrida con 845 datos de VQA que abarcan seis dimensiones perceptivas de grano fino, junto con un protocolo de vista dual que cuantifica la "brecha de zoom" global-regional. Los experimentos muestran que nuestros modelos logran un rendimiento líder en múltiples benchmarks de percepción de grano fino, y también mejoran la cognición multimodal general en benchmarks como el razonamiento visual y los agentes de GUI. Además, discutimos cuándo es necesario "Pensar con Imágenes" frente a cuándo sus beneficios pueden destilarse en un único pase hacia adelante. Nuestro código está disponible en https://github.com/inclusionAI/Zooming-without-Zooming.
English
Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.
PDF512February 17, 2026