Q-Zoom: 효율적인 멀티모달 대규모 언어 모델을 위한 질의 인식 적응형 인지
Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models
April 8, 2026
저자: Yuheng Shi, Xiaohuan Pei, Linfeng Wen, Minjing Dong, Chang Xu
cs.AI
초록
MLLM은 문서 이해 및 밀집 장면 인식과 같은 세밀한 작업을 위해 고해상도 시각 입력을 필요로 합니다. 그러나 현재의 전역 해상도 스케일링 패러다임은 시각적으로 중복된 토큰을 이차적 self-attention 메커니즘에 무분별하게 유입시켜, 공간적 희소성과 질의 의도를 무시한 채 추론 처리량을 심각하게 저하시키는 병목 현상을 일으킵니다. 이를 극복하기 위해 본 논문은 효율적인 coarse-to-fine 방식으로 동작하는 질의 인식 적응형 고해상도 인식 프레임워크인 Q-Zoom을 제안합니다. 첫째, 경량 Dynamic Gating Network는 coarse한 전역 특징만으로 충분한 경우 고해상도 처리를 안전하게 우회합니다. 둘째, 세밀한 인식을 요구하는 질의에 대해 Self-Distilled Region Proposal Network(SD-RPN)는 중간 특징 공간에서 직접 작업 관련 관심 영역(Region-of-Interest, RoI)을 정확하게 위치 지정합니다. 이러한 모듈을 효율적으로 최적화하기 위해 게이팅 네트워크는 일관성 인지 생성 전략을 사용하여 결정론적 라우팅 레이블을 도출하고, SD-RPN은 완전 자기 지도 학습 증류 패러다임을 채택합니다. 이후 연속 시공간 정렬 기법과 대상 맞춤 미세 조정을 통해 조밀한 지역 RoI와 coarse한 전역 레이아웃을 원활하게 융합합니다. 폭넓은 실험을 통해 Q-Zoom이 압도적인 파레토 프론티어를 구축함을 입증했습니다. Qwen2.5-VL-7B를 주요 테스트베드로 사용했을 때, Q-Zoom은 Document & OCR 벤치마크에서 2.52배, High-Resolution 시나리오에서 4.39배의 추론 가속화를 달성하면서 기준 모델의 최고 정확도를 유지했습니다. 더 나아가 최대 인식 충실도를 위해 구성된 Q-Zoom은 동일 벤치마크에서 기준 모델의 최고 성능을 각각 1.1%, 8.1% 초과했습니다. 이러한 견고한 성능 향상은 Qwen3-VL, LLaVA 및新兴 RL 기반 thinking-with-image 모델로도 원활하게 전이되었습니다. 프로젝트 페이지는 https://yuhengsss.github.io/Q-Zoom/에서 확인할 수 있습니다.
English
MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.