ChatPaper.aiChatPaper

AdaptVision: Modelos Eficientes de Visión y Lenguaje mediante Adquisición Visual Adaptativa

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

December 3, 2025
Autores: Zichuan Lin, Yicheng Liu, Yang Yang, Lvfang Tao, Deheng Ye
cs.AI

Resumen

Los Modelos de Lenguaje-Visión (VLMs) han logrado un éxito notable en tareas de respuesta visual a preguntas, pero su dependencia de un gran número de tokens visuales introduce una sobrecarga computacional significativa. Si bien los enfoques eficientes de VLM existentes reducen los tokens visuales mediante compresión de proporción fija, operan de manera pasiva y carecen de la capacidad de adaptarse a requisitos de tarea variables. Esto plantea una pregunta fundamental: ¿Pueden los VLMs determinar autónomamente el número mínimo de tokens visuales requeridos para cada muestra? Inspirados por los mecanismos de visión activa humana, presentamos AdaptVision, un paradigma eficiente de VLM que permite la adquisición adaptativa de tokens visuales mediante un enfoque de grueso a fino. Nuestro modelo procesa inicialmente tokens visuales comprimidos de imágenes de baja resolución y adquiere selectivamente información visual adicional invocando una herramienta de cuadro delimitador para recortar regiones clave cuando es necesario. Entrenamos AdaptVision utilizando un marco de aprendizaje por refuerzo que equilibra cuidadosamente la precisión y la eficiencia. Central a nuestro enfoque es la Optimización de Política de Turno Desacoplada (DTPO), que desacopla el objetivo de aprendizaje en dos componentes: (1) aprendizaje de herramientas, que optimiza la utilización correcta de herramientas, y (2) mejora de la precisión, que refina las respuestas generadas para mejorar la corrección de las respuestas. Basándonos en esta formulación, desacoplamos aún más la estimación de ventaja calculando ventajas separadas para los tokens asociados con cada objetivo. Esta formulación permite una optimización más efectiva para AdaptVision en comparación con GRPO convencional. Experimentos exhaustivos en múltiples benchmarks de VQA demuestran que AdaptVision logra un rendimiento superior mientras consume sustancialmente menos tokens visuales que los métodos eficientes de VLM más avanzados.
English
Vision-Language Models (VLMs) have achieved remarkable success in visual question answering tasks, but their reliance on large numbers of visual tokens introduces significant computational overhead. While existing efficient VLM approaches reduce visual tokens through fixed-ratio compression, they operate passively and lack the ability to adapt to varying task requirements. This motivates a fundamental question: Can VLMs autonomously determine the minimum number of visual tokens required for each sample? Inspired by human active vision mechanisms, we introduce AdaptVision, an efficient VLM paradigm that enables adaptive visual token acquisition through a coarse-to-fine approach. Our model initially processes compressed visual tokens from low-resolution images and selectively acquires additional visual information by invoking a bounding box tool to crop key regions when necessary. We train AdaptVision using a reinforcement learning framework that carefully balances accuracy and efficiency. Central to our approach is Decoupled Turn Policy Optimization (DTPO), which decouples the learning objective into two components: (1) tool learning, which optimizes correct tool utilization, and (2) accuracy improvement, which refines the generated responses to improve answer correctness. Based on this formulation, we further decouple advantage estimation by computing separate advantages for tokens associated with each objective. This formulation enables more effective optimization for AdaptVision compared to vanilla GRPO. Comprehensive experiments across multiple VQA benchmarks demonstrate that AdaptVision achieves superior performance while consuming substantially fewer visual tokens than state-of-the-art efficient VLM methods.
PDF11December 5, 2025