Kijk Waar Het Telt: Hoogwaardige Gewasretrieval voor Efficiënte Visueel-Taalmodellen

Samenvatting

Vision-language models (VLMs) verwerken beelden doorgaans op hun oorspronkelijke hoge resolutie, wat een afweging tussen nauwkeurigheid en rekenefficiëntie forceert: invoer met hoge resolutie legt fijne details vast maar brengt aanzienlijke rekenkosten met zich mee, terwijl invoer met lage resolutie weliswaar efficiëntie bevordert, maar mogelijk cruciale visuele informatie mist, zoals kleine tekst. Wij presenteren AwaRes, een ruimtelijk-on-demand raamwerk dat deze nauwkeurigheid-efficiëntie-afweging oplost door te werken met een globaal beeld met lage resolutie en tool-calling te gebruiken om alleen de hoogresolutie-segmenten op te halen die nodig zijn voor een bepaalde query. Wij construeren automatisch gesuperviseerde data: een beoordelaar vergelijkt antwoorden op lage versus hoge resolutie om te labelen of bijsnijden nodig is, en een orakel-localiseringsmodel lokaliseert het bewijsmateriaal voor het correcte antwoord, dat wij in kaart brengen op een discrete set van uitsneden om meerdaagse tool-use trajecten te vormen. Wij trainen ons raamwerk met cold-start SFT gevolgd door meerdaagse GRPO met een samengestelde beloning die semantische antwoordnauwkeurigheid combineert met expliciete straffen voor uitsnedekosten. Projectpagina: https://nimrodshabtay.github.io/AwaRes

English

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

Kijk Waar Het Telt: Hoogwaardige Gewasretrieval voor Efficiënte Visueel-Taalmodellen

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Samenvatting

Support