Olhe Onde Importa: Recuperação de Culturas de Alta Resolução para VLMs Eficientes

Resumo

Os modelos visão-linguagem (VLMs) normalmente processam imagens em sua resolução alta nativa, forçando uma escolha entre precisão e eficiência computacional: entradas de alta resolução capturam detalhes finos, mas incorrem em custos computacionais significativos, enquanto entradas de baixa resolução priorizam a eficiência, mas potencialmente perdem informações visuais críticas, como texto pequeno. Apresentamos o AwaRes, uma estrutura espacial sob demanda que resolve este conflito entre precisão e eficiência operando numa visão global de baixa resolução e usando chamadas de ferramentas para recuperar apenas os segmentos de alta resolução necessários para uma consulta específica. Construímos dados supervisionados automaticamente: um avaliador compara respostas de baixa versus alta resolução para rotular se um recorte é necessário, e um modelo de fundamentação oráculo localiza a evidência para a resposta correta, que mapeamos para um conjunto discreto de recortes para formar trajetórias de uso de ferramentas em múltiplas etapas. Treinamos nossa estrutura com SFT de arranque a frio seguido por GRPO multi-etapa com uma recompensa composta que combina a correção semântica da resposta com penalidades explícitas de custo de recorte. Página do projeto: https://nimrodshabtay.github.io/AwaRes

English

Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes

Olhe Onde Importa: Recuperação de Culturas de Alta Resolução para VLMs Eficientes

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Resumo

Support