줌인 없이 줌인하기: 세밀한 멀티모달 인식을 위한 영역-이미지 지식 증류
Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
February 12, 2026
저자: Lai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang
cs.AI
초록
멀티모달 대규모 언어 모델(MLLMs)은 광범위한 시각 이해에 뛰어나지만, 결정적 증거가 작고 전역 맥락에 쉽게 압도되는 세밀한 인식(fine-grained perception)에는 여전히 어려움을 겪습니다. 최근의 "이미지와 함께 사고하기(Thinking-with-Images)" 방법론은 추론 과정에서 관심 영역을 반복적으로 확대 및 축소하여 이를 완화하지만, 반복적인 도구 호출과 시각적 재인코딩으로 인해 높은 지연 시간이 발생합니다. 이를 해결하기 위해 우리는 영역-이미지 지식 증류(Region-to-Image Distillation)를 제안합니다. 이 방법은 확대 기능을 추론 시점의 도구에서 학습 시점의 기본 요소로 변환하여, 에이전트 기반 확대의 이점을 MLLM의 단일 순전파 과정 내부에 내재화합니다. 구체적으로, 우리는 먼저 미세하게 크롭된 영역을 확대하여 강력한 교사 모델이 고품질의 시각 질의응답(VQA) 데이터를 생성하도록 한 다음, 이 영역에 기반한 지도 신호를 다시 원본 전체 이미지로 증류합니다. 이러한 데이터로 학습한 후, 더 작은 학생 모델은 도구 사용 없이도 "단일 응시(single-glance)" 세밀한 인식 능력을 향상시킵니다. 이 능력을 엄격하게 평가하기 위해, 우리는 6개의 세밀한 인식 차원을 아우르는 845개의 VQA 데이터로 구성된 하이브리드 주석 벤치마크인 ZoomBench와 전역-지역 간 "확대 격차(zooming gap)"를 정량화하는 이중 시점 프로토콜(dual-view protocol)을 추가로 제시합니다. 실험 결과, 우리 모델은 여러 세밀한 인식 벤치마크에서 선도적인 성능을 달성했을 뿐만 아니라, 시각적 추론 및 GUI 에이전트와 같은 벤치마크에서 일반적인 멀티모달 인식 능력도 향상시켰습니다. 우리는 또한 "이미지와 함께 사고하기"가 필요한 경우와 그 이득이 단일 순전파 과정으로 증류될 수 있는 경우에 대해 추가로 논의합니다. 우리의 코드는 https://github.com/inclusionAI/Zooming-without-Zooming에서 확인할 수 있습니다.
English
Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.