Miremos Donde Importa: Recuperación de Cultivos de Alta Resolución para VLMs Eficientes

Resumen

Los modelos deíctica-lenguaje (VLMs) suelen procesar imágenes en su resolución nativa alta, lo que impone una disyuntiva entre precisión y eficiencia computacional: las entradas de alta resolución capturan detalles finos pero conllevan costos computacionales significativos, mientras que las entradas de baja resolución abogan por la eficiencia, pero potencialmente omiten información visual crítica, como texto pequeño. Presentamos AwaRes, un marco espacial bajo demanda que resuelve esta disyuntiva precisión-eficiencia operando en una vista global de baja resolución y utilizando llamadas a herramientas para recuperar únicamente los segmentos de alta resolución necesarios para una consulta dada. Construimos datos supervisados automáticamente: un juez compara respuestas de baja vs. alta resolución para etiquetar si es necesario recortar, y un modelo de grounding oráculo localiza la evidencia para la respuesta correcta, la cual mapeamos a un conjunto discreto de recortes para formar trayectorias de uso de herramientas multi-turno. Entrenamos nuestro marco con SFT de inicio en frío seguido de GRPO multi-turno con una recompensa compuesta que combina la corrección semántica de la respuesta con penalizaciones explícitas por el costo de los recortes. Página del proyecto: https://nimrodshabtay.github.io/AwaRes

English

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

Miremos Donde Importa: Recuperación de Cultivos de Alta Resolución para VLMs Eficientes

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Resumen

Support