Regardez là où cela compte : récupération haute résolution des cultures pour des modèles de vision et langage efficaces

Résumé

Les modèles vision-langue (VLM) traitent généralement les images à leur haute résolution native, imposant un compromis entre précision et efficacité computationnelle : les entrées haute résolution capturent les détails fins mais entraînent des coûts computationnels significatifs, tandis que les entrées basse résolution privilégient l'efficacité mais risquent d'omettre des informations visuelles critiques, comme le petit texte. Nous présentons AwaRes, un cadre spatial à la demande qui résout ce compromis en opérant sur une vue globale basse résolution et en utilisant l'appel d'outils pour récupérer uniquement les segments haute résolution nécessaires à une requête donnée. Nous construisons automatiquement des données supervisées : un juge compare les réponses basse vs haute résolution pour étiqueter si un recadrage est nécessaire, et un modèle de localisation oracle situe les preuves pour la réponse correcte, que nous mappons à un ensemble discret de recadrages pour former des trajectoires multi-tours d'utilisation d'outils. Nous entraînons notre cadre avec un SFT à froid suivi d'un GRPO multi-tours avec une récompense composite combinant l'exactitude sémantique de la réponse avec des pénalités explicites liées au coût des recadrages. Page du projet : https://nimrodshabtay.github.io/AwaRes

English

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

Regardez là où cela compte : récupération haute résolution des cultures pour des modèles de vision et langage efficaces

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Résumé

Support