Смотрите, где важно: высокоточное извлечение областей интереса для эффективных визуально-языковых моделей

Аннотация

Модели «зрение–язык» (VLMs) обычно обрабатывают изображения в исходном высоком разрешении, что вынуждает идти на компромисс между точностью и вычислительной эффективностью: входные данные высокого разрешения сохраняют мелкие детали, но требуют значительных вычислительных затрат, в то время как входные данные низкого разрешения, хотя и обеспечивают эффективность, потенциально упускают критически важную визуальную информацию, например, мелкий текст. Мы представляем AwaRes, пространственную framework по требованию, которая разрешает этот компромисс «точность–эффективность» за счёт работы с глобальным обзором в низком разрешении и использования вызова инструментов для извлечения только тех сегментов высокого разрешения, которые необходимы для данного запроса. Мы автоматически создаём размеченные данные: арбитр сравнивает ответы на основе низкого и высокого разрешения, чтобы определить, требуется ли обрезка (cropping), а модель привязки (oracle grounding model) локализует доказательства для правильного ответа, которые мы сопоставляем с дискретным набором обрезков для формирования многошаговых траекторий использования инструментов. Мы обучаем нашу framework, начиная с SFT «с нуля» (cold-start), с последующим применением многошагового GRPO с композитным вознаграждением, сочетающим семантическую правильность ответа с явными штрафами за стоимость обрезков. Страница проекта: https://nimrodshabtay.github.io/AwaRes

English

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

Смотрите, где важно: высокоточное извлечение областей интереса для эффективных визуально-языковых моделей

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Аннотация

Support