AdaptVision: Modelli Visione-Linguaggio Efficienti tramite Acquisizione Visiva Adattiva
AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
December 3, 2025
Autori: Zichuan Lin, Yicheng Liu, Yang Yang, Lvfang Tao, Deheng Ye
cs.AI
Abstract
I modelli visione-linguaggio (VLM) hanno ottenuto un notevole successo nei compiti di risposta a domande visive, ma la loro dipendenza da un gran numero di token visivi introduce un significativo sovraccarico computazionale. Sebbene gli approcci VLM efficienti esistenti riducano i token visivi attraverso una compressione a rapporto fisso, essi operano passivamente e mancano della capacità di adattarsi a requisiti di compito variabili. Ciò solleva una questione fondamentale: i VLM possono determinare autonomamente il numero minimo di token visivi richiesto per ogni campione? Ispirati dai meccanismi umani della visione attiva, introduciamo AdaptVision, un paradigma VLM efficiente che consente l'acquisizione adattiva di token visivi attraverso un approccio dal grossolano al fine. Il nostro modello elabora inizialmente token visivi compressi da immagini a bassa risoluzione e acquisisce selettivamente informazioni visive aggiuntive invocando uno strumento di bounding box per ritagliare le regioni chiave quando necessario. Addestriamo AdaptVision utilizzando un framework di apprendimento per rinforzo che bilancia accuratamente precisione ed efficienza. Centrale per il nostro approccio è l'Ottimizzazione della Politica a Turni Disaccoppiati (DTPO), che disaccoppia l'obiettivo di apprendimento in due componenti: (1) l'apprendimento dello strumento, che ottimizza il corretto utilizzo dello stesso, e (2) il miglioramento della precisione, che affina le risposte generate per migliorare la correttezza della risposta. Basandoci su questa formulazione, disaccoppiamo ulteriormente la stima del vantaggio calcolando vantaggi separati per i token associati a ciascun obiettivo. Questa formulazione consente un'ottimizzazione più efficace per AdaptVision rispetto al GRPO standard. Esperimenti completi su molteplici benchmark di VQA dimostrano che AdaptVision raggiunge prestazioni superiori consumando sostanzialmente meno token visivi rispetto ai metodi VLM efficienti allo stato dell'arte.
English
Vision-Language Models (VLMs) have achieved remarkable success in visual question answering tasks, but their reliance on large numbers of visual tokens introduces significant computational overhead. While existing efficient VLM approaches reduce visual tokens through fixed-ratio compression, they operate passively and lack the ability to adapt to varying task requirements. This motivates a fundamental question: Can VLMs autonomously determine the minimum number of visual tokens required for each sample? Inspired by human active vision mechanisms, we introduce AdaptVision, an efficient VLM paradigm that enables adaptive visual token acquisition through a coarse-to-fine approach. Our model initially processes compressed visual tokens from low-resolution images and selectively acquires additional visual information by invoking a bounding box tool to crop key regions when necessary. We train AdaptVision using a reinforcement learning framework that carefully balances accuracy and efficiency. Central to our approach is Decoupled Turn Policy Optimization (DTPO), which decouples the learning objective into two components: (1) tool learning, which optimizes correct tool utilization, and (2) accuracy improvement, which refines the generated responses to improve answer correctness. Based on this formulation, we further decouple advantage estimation by computing separate advantages for tokens associated with each objective. This formulation enables more effective optimization for AdaptVision compared to vanilla GRPO. Comprehensive experiments across multiple VQA benchmarks demonstrate that AdaptVision achieves superior performance while consuming substantially fewer visual tokens than state-of-the-art efficient VLM methods.