AdaptVision: 적응형 시각 획득을 통한 효율적인 비전-언어 모델
AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
December 3, 2025
저자: Zichuan Lin, Yicheng Liu, Yang Yang, Lvfang Tao, Deheng Ye
cs.AI
초록
비전-언어 모델(VLM)은 시각 질의응답 과제에서 놀라운 성과를 거두었지만, 많은 수의 시각 토큰에 의존함으로써 상당한 계산 부담을 초래합니다. 기존의 효율적 VLM 접근법들은 고정 비율 압축을 통해 시각 토큰을 줄이지만, 수동적으로 작동하며 다양한 과제 요구사항에 적응하는 능력이 부족합니다. 이는 "VLM이 각 샘플에 필요한 최소 시각 토큰 수를 자율적으로 결정할 수 있을까?"라는 근본적인 질문을 제기합니다. 인간의 능동적 시각 메커니즘에서 영감을 받아, 우리는 coarse-to-fine 접근법을 통해 적응형 시각 토큰 획득을 가능하게 하는 효율적 VLM 패러다임인 AdaptVision을 제안합니다. 우리 모델은 저해상도 이미지에서 압축된 시각 토큰을 먼저 처리하고, 필요시 경계 상자 도구를 호출하여 핵심 영역을 크롭함으로써 추가 시각 정보를 선택적으로 획득합니다. 정확도와 효율성을 세심하게 균형 잡는 강화학습 프레임워크를 사용하여 AdaptVision을 학습합니다. 우리 접근법의 핵심은 학습 목표를 두 구성 요소로 분리하는 Decoupled Turn Policy Optimization(DTPO)입니다: (1) 올바른 도구 활용을 최적화하는 도구 학습, (2) 생성된 응답을 개선하여 답변 정확도를 높이는 정확도 향상. 이 공식을 바탕으로, 각 목표와 연관된 토큰에 대해 별도의 어드벤티지를 계산함으로써 어드벤티지 추정을 추가로 분리합니다. 이 공식은 기본 GRPO 대비 AdaptVision의 더 효과적인 최적화를 가능하게 합니다. 다양한 VQA 벤치마크에서의 포괄적 실험을 통해 AdaptVision이 최신 효율적 VLM 방법들보다 현저히 적은 수의 시각 토큰을 소모하면서도 우수한 성능을 달성함을 입증합니다.
English
Vision-Language Models (VLMs) have achieved remarkable success in visual question answering tasks, but their reliance on large numbers of visual tokens introduces significant computational overhead. While existing efficient VLM approaches reduce visual tokens through fixed-ratio compression, they operate passively and lack the ability to adapt to varying task requirements. This motivates a fundamental question: Can VLMs autonomously determine the minimum number of visual tokens required for each sample? Inspired by human active vision mechanisms, we introduce AdaptVision, an efficient VLM paradigm that enables adaptive visual token acquisition through a coarse-to-fine approach. Our model initially processes compressed visual tokens from low-resolution images and selectively acquires additional visual information by invoking a bounding box tool to crop key regions when necessary. We train AdaptVision using a reinforcement learning framework that carefully balances accuracy and efficiency. Central to our approach is Decoupled Turn Policy Optimization (DTPO), which decouples the learning objective into two components: (1) tool learning, which optimizes correct tool utilization, and (2) accuracy improvement, which refines the generated responses to improve answer correctness. Based on this formulation, we further decouple advantage estimation by computing separate advantages for tokens associated with each objective. This formulation enables more effective optimization for AdaptVision compared to vanilla GRPO. Comprehensive experiments across multiple VQA benchmarks demonstrate that AdaptVision achieves superior performance while consuming substantially fewer visual tokens than state-of-the-art efficient VLM methods.