Schau hin, wo es wichtig ist: Hochauflösende Bildausschnitte für effiziente visuelle Sprachmodelle

Zusammenfassung

Vision-Language-Modelle (VLMs) verarbeiten Bilder typischerweise in nativer hoher Auflösung, was einen Zielkonflikt zwischen Genauigkeit und Recheneffizienz erzwingt: Hochauflösende Eingaben erfassen feine Details, verursachen aber erhebliche Rechenkosten, während niedrigauflösende Eingaben zwar Effizienz fördern, jedoch potenziell kritische visuelle Informationen, wie kleinen Text, übersehen. Wir stellen AwaRes vor, ein raumbezogenes On-Demand-Framework, das diesen Zielkonflikt auflöst, indem es mit einer niedrigaufgelösten Gesamtansicht arbeitet und mittels Tool-Aufrufen nur die für eine bestimmte Anfrage benötigten hochauflösenden Bildsegmente abruft. Wir erzeugen automatisch überwachte Trainingsdaten: Ein "Judge" vergleicht Antworten auf Basis von niedriger versus hoher Auflösung, um zu kennzeichnen, ob ein Zuschneiden notwendig ist, und ein "Oracle"-Grounding-Modell lokalisiert die Evidenz für die korrekte Antwort, die wir auf einen diskreten Satz von Ausschnitten abbilden, um mehrstufige Tool-Nutzungspfade zu bilden. Wir trainieren unser Framework mit Cold-Start SFT, gefolgt von mehrstufigem GRPO mit einer zusammengesetzten Belohnungsfunktion, die semantische Antwortkorrektheit mit expliziten Straftermen für Zuschnittskosten kombiniert. Projektseite: https://nimrodshabtay.github.io/AwaRes

English

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

Schau hin, wo es wichtig ist: Hochauflösende Bildausschnitte für effiziente visuelle Sprachmodelle

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Zusammenfassung

Support