ChatPaper.aiChatPaper

AdaptVision : Des modèles vision-langage efficaces via une acquisition visuelle adaptative

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

December 3, 2025
papers.authors: Zichuan Lin, Yicheng Liu, Yang Yang, Lvfang Tao, Deheng Ye
cs.AI

papers.abstract

Les modèles vision-langage (VLM) ont obtenu des succès remarquables dans les tâches de question-réponse visuelle, mais leur dépendance à un grand nombre de tokens visuels introduit une surcharge computationnelle significative. Bien que les approches existantes de VLM efficaces réduisent les tokens visuels par une compression à ratio fixe, elles opèrent passivement et manquent de capacité à s'adapter aux exigences variables des tâches. Cela soulève une question fondamentale : Les VLM peuvent-ils déterminer de manière autonome le nombre minimum de tokens visuels requis pour chaque échantillon ? Inspiré par les mécanismes de vision active humaine, nous introduisons AdaptVision, un paradigme de VLM efficace qui permet l'acquisition adaptative de tokens visuels via une approche grossière à fine. Notre modèle traite d'abord des tokens visuels compressés provenant d'images basse résolution et acquiert sélectivement des informations visuelles supplémentaires en invoquant un outil de boîte englobante pour recadrer les régions clés lorsque nécessaire. Nous entraînons AdaptVision en utilisant un cadre d'apprentissage par renforcement qui équilibre soigneusement précision et efficacité. Au cœur de notre approche se trouve l'Optimisation de Politique à Tours Découplés (DTPO), qui dissocie l'objectif d'apprentissage en deux composantes : (1) l'apprentissage d'outil, qui optimise l'utilisation correcte de l'outil, et (2) l'amélioration de la précision, qui affine les réponses générées pour améliorer l'exactitude des réponses. Sur la base de cette formulation, nous découplons davantage l'estimation de l'avantage en calculant des avantages distincts pour les tokens associés à chaque objectif. Cette formulation permet une optimisation plus efficace pour AdaptVision comparée au GRPO standard. Des expériences complètes sur plusieurs benchmarks de VQA démontrent qu'AdaptVision atteint une performance supérieure tout en consommant substantiellement moins de tokens visuels que les méthodes état de l'art de VLM efficaces.
English
Vision-Language Models (VLMs) have achieved remarkable success in visual question answering tasks, but their reliance on large numbers of visual tokens introduces significant computational overhead. While existing efficient VLM approaches reduce visual tokens through fixed-ratio compression, they operate passively and lack the ability to adapt to varying task requirements. This motivates a fundamental question: Can VLMs autonomously determine the minimum number of visual tokens required for each sample? Inspired by human active vision mechanisms, we introduce AdaptVision, an efficient VLM paradigm that enables adaptive visual token acquisition through a coarse-to-fine approach. Our model initially processes compressed visual tokens from low-resolution images and selectively acquires additional visual information by invoking a bounding box tool to crop key regions when necessary. We train AdaptVision using a reinforcement learning framework that carefully balances accuracy and efficiency. Central to our approach is Decoupled Turn Policy Optimization (DTPO), which decouples the learning objective into two components: (1) tool learning, which optimizes correct tool utilization, and (2) accuracy improvement, which refines the generated responses to improve answer correctness. Based on this formulation, we further decouple advantage estimation by computing separate advantages for tokens associated with each objective. This formulation enables more effective optimization for AdaptVision compared to vanilla GRPO. Comprehensive experiments across multiple VQA benchmarks demonstrate that AdaptVision achieves superior performance while consuming substantially fewer visual tokens than state-of-the-art efficient VLM methods.
PDF11December 5, 2025