Guarda Dove Conta: Recupero ad Alta Risoluzione delle Colture per VLM Efficienti

Abstract

I modelli visione-linguaggio (VLM) elaborano tipicamente le immagini alla loro risoluzione nativa elevata, imponendo un compromesso tra accuratezza ed efficienza computazionale: gli input ad alta risoluzione catturano i dettagli fini ma comportano costi computazionali significativi, mentre gli input a bassa risoluzione, sebbene favoriscano l'efficienza, rischiano di perdere informazioni visive critiche, come il testo piccolo. Presentiamo AwaRes, un framework spaziale on-demand che risolve questo compromesso accuratezza-efficienza operando su una vista globale a bassa risoluzione e utilizzando tool-calling per recuperare solo i segmenti ad alta risoluzione necessari per una determinata query. Costruiamo i dati supervisionati automaticamente: un giudice confronta le risposte a bassa versus alta risoluzione per etichettare se è necessario un ritaglio, e un modello di grounding oracolo localizza l'evidenza per la risposta corretta, che mappiamo su un insieme discreto di ritagli per formare traiettorie di uso strumenti multi-turno. Addestriamo il nostro framework con SFT a freddo (cold-start) seguito da GRPO multi-turno con una ricompensa composita che combina la correttezza semantica della risposta con penalità esplicite sul costo dei ritagli. Pagina del progetto: https://nimrodshabtay.github.io/AwaRes

English

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

Guarda Dove Conta: Recupero ad Alta Risoluzione delle Colture per VLM Efficienti

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Abstract

Support