ChatPaper.aiChatPaper

Масштабирование без масштабирования: регионально-изобразительная дистилляция для тонкой мультимодальной перцепции

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

February 12, 2026
Авторы: Lai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang
cs.AI

Аннотация

Мультимодальные большие языковые модели (МБЯМ) демонстрируют превосходство в задачах общего визуального понимания, но по-прежнему испытывают трудности с детальным восприятием, когда решающие признаки малы и легко подавляются глобальным контекстом. Недавние методы «мышления с изображениями» смягчают эту проблему за счет итеративного увеличения и уменьшения областей интереса на этапе вывода, однако это приводит к высокой задержке из-за повторяющихся вызовов инструментов и перекодирования изображения. Для решения этой проблемы мы предлагаем дистилляцию «регион-в-изображение», которая превращает масштабирование из инструмента времени вывода в примитив времени обучения, тем самым интериоризируя преимущества активного увеличения в одно прямое прохождение МБЯМ. В частности, мы сначала увеличиваем микро-обрезанные области, чтобы позволить мощным моделям-учителям генерировать данные для визуального вопроса-ответа высокого качества, а затем дистиллируем это основанное на регионах руководство обратно на полное изображение. После обучения на таких данных меньшая модель-ученик улучшает детальное восприятие «одним взглядом» без использования инструментов. Для строгой оценки этой способности мы дополнительно представляем ZoomBench — гибридно аннотированный бенчмарк из 845 данных ВОП, охватывающих шесть аспектов детального восприятия, вместе с двухракурсным протоколом, который количественно оценивает «разрыв масштабирования» между глобальным и региональным уровнями. Эксперименты показывают, что наши модели достигают лидирующей производительности на множестве бенчмарков детального восприятия, а также улучшают общие мультимодальные способности на таких тестах, как визуальное рассуждение и GUI-агенты. Мы дополнительно обсуждаем, когда «мышление с изображениями» необходимо, а когда его преимущества могут быть дистиллированы в одно прямое прохождение. Наш код доступен по адресу https://github.com/inclusionAI/Zooming-without-Zooming.
English
Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.
PDF512February 17, 2026