AdaptVision: Modelos Eficientes de Visão e Linguagem por meio de Aquisição Visual Adaptativa

Resumo

Os Modelos de Visão e Linguagem (VLMs) alcançaram sucesso notável em tarefas de resposta a perguntas visuais, mas sua dependência de um grande número de tokens visuais introduz sobrecarga computacional significativa. Embora as abordagens eficientes de VLMs existentes reduzam os tokens visuais por meio de compressão de taxa fixa, elas operam passivamente e carecem da capacidade de se adaptar a diferentes requisitos de tarefas. Isso motiva uma questão fundamental: Os VLMs podem determinar autonomamente o número mínimo de tokens visuais necessários para cada amostra? Inspirados pelos mecanismos humanos de visão ativa, introduzimos o AdaptVision, um paradigma eficiente de VLM que permite a aquisição adaptativa de tokens visuais por meio de uma abordagem coarse-to-fine (do geral para o específico). Nosso modelo processa inicialmente tokens visuais comprimidos de imagens de baixa resolução e adquire seletivamente informações visuais adicionais invocando uma ferramenta de bounding box para recortar regiões-chave quando necessário. Treinamos o AdaptVision usando uma estrutura de aprendizado por reforço que equilibra cuidadosamente precisão e eficiência. Central à nossa abordagem é a Otimização de Política de Turno Desacoplada (DTPO), que desacopla o objetivo de aprendizado em dois componentes: (1) aprendizado de ferramentas, que otimiza a utilização correta de ferramentas, e (2) melhoria de precisão, que refina as respostas geradas para melhorar a correção das respostas. Com base nessa formulação, desacoplamos ainda mais a estimativa de vantagem calculando vantagens separadas para tokens associados a cada objetivo. Essa formulação permite uma otimização mais eficaz para o AdaptVision em comparação com o GRPO padrão. Experimentos abrangentes em vários benchmarks de VQA demonstram que o AdaptVision alcança desempenho superior enquanto consome significativamente menos tokens visuais do que os métodos eficientes de VLM state-of-the-art.

English

Vision-Language Models (VLMs) have achieved remarkable success in visual question answering tasks, but their reliance on large numbers of visual tokens introduces significant computational overhead. While existing efficient VLM approaches reduce visual tokens through fixed-ratio compression, they operate passively and lack the ability to adapt to varying task requirements. This motivates a fundamental question: Can VLMs autonomously determine the minimum number of visual tokens required for each sample? Inspired by human active vision mechanisms, we introduce AdaptVision, an efficient VLM paradigm that enables adaptive visual token acquisition through a coarse-to-fine approach. Our model initially processes compressed visual tokens from low-resolution images and selectively acquires additional visual information by invoking a bounding box tool to crop key regions when necessary. We train AdaptVision using a reinforcement learning framework that carefully balances accuracy and efficiency. Central to our approach is Decoupled Turn Policy Optimization (DTPO), which decouples the learning objective into two components: (1) tool learning, which optimizes correct tool utilization, and (2) accuracy improvement, which refines the generated responses to improve answer correctness. Based on this formulation, we further decouple advantage estimation by computing separate advantages for tokens associated with each objective. This formulation enables more effective optimization for AdaptVision compared to vanilla GRPO. Comprehensive experiments across multiple VQA benchmarks demonstrate that AdaptVision achieves superior performance while consuming substantially fewer visual tokens than state-of-the-art efficient VLM methods.

AdaptVision: Modelos Eficientes de Visão e Linguagem por meio de Aquisição Visual Adaptativa

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Resumo

Support