ChatPaper.aiChatPaper

요청 시각화: 희소하고 동적으로 선택되는 시각-언어 상호작용을 통한 VLLM 효율성 향상

VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

March 24, 2026
저자: Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos
cs.AI

초록

대규모 시각-언어 모델(LVLM)의 효율성을 향상시키기 위한 기존 접근법은 주로 시각적 토큰 축소 개념에 기반합니다. 그러나 이러한 접근법은 정보 병목 현상을 일으켜 성능을 저하시키며, 특히 세밀한 이해와 추론이 필요한 어려운 과제에서 두드러집니다. 본 연구에서는 시각 정보를 폐기하지 않고 추론 비용을 절감하는 방법인 VISOR(VISion On Request)를 도입하여 이러한 패러다임에 도전합니다. VISOR는 이미지를 압축하는 대신 이미지와 텍스트 토큰 간의 상호작용을 희소화하여 효율성을 개선합니다. 구체적으로, 언어 모델은 소수의 전략적으로 배치된 어텐션 계층을 통해 고해상도 시각 토큰 전체 집합에 주의를 기울입니다: 일반적인 시각적 맥락은 텍스트-이미지 간 효율적인 교차 어텐션을 통해 제공되는 반면, 소수의 적절히 배치되고 동적으로 선택된 자기 어텐션 계층은 시각적 표현 자체를 정제하여 필요 시 복잡한 고해상도 추론을 가능하게 합니다. 이 원칙에 기반하여, 우리는 먼저 자기 어텐션 계층의 수를 변화시켜 다양한 계산 예산 범위에서 단일 범용 네트워크를 사전 훈련시킨 다음, 샘플별 복잡도에 기반하여 시각적 계산을 동적으로 할당하는 경량 정책 메커니즘을 도입합니다. 광범위한 실험을 통해 VISOR가 다양한 벤치마크 스위트에서 최첨단 결과를 능가하거나 동등한 성능을 유지하면서 계산 비용을 극적으로 절감하며, 세부적인 시각적 이해가 필요한 어려운 과제에서 탁월함을 입증합니다.
English
Existing approaches for improving the efficiency of Large Vision-Language Models (LVLMs) are largely based on the concept of visual token reduction. This approach, however, creates an information bottleneck that impairs performance, especially on challenging tasks that require fine-grained understanding and reasoning. In this work, we challenge this paradigm by introducing VISion On Request (VISOR), a method that reduces inference cost without discarding visual information. Instead of compressing the image, VISOR improves efficiency by sparsifying the interaction between image and text tokens. Specifically, the language model attends to the full set of high-resolution visual tokens through a small, strategically placed set of attention layers: general visual context is provided by efficient cross-attention between text-image, while a few well-placed and dynamically selected self-attention layers refine the visual representations themselves, enabling complex, high-resolution reasoning when needed. Based on this principle, we first train a single universal network on a range of computational budgets by varying the number of self-attention layers, and then introduce a lightweight policy mechanism that dynamically allocates visual computation based on per-sample complexity. Extensive experiments show that VISOR drastically reduces computational cost while matching or exceeding state-of-the-art results across a diverse suite of benchmarks, and excels in challenging tasks that require detailed visual understanding.
PDF31March 26, 2026