Q-Zoom: Percepción Adaptativa Consciente de la Consulta para Modelos de Lenguaje Multimodales Eficientes
Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models
April 8, 2026
Autores: Yuheng Shi, Xiaohuan Pei, Linfeng Wen, Minjing Dong, Chang Xu
cs.AI
Resumen
Los MLLM requieren entradas visuales de alta resolución para tareas de grano fino como comprensión de documentos y percepción de escenas densas. Sin embargo, los paradigmas actuales de escalado de resolución global inundan indiscriminadamente el mecanismo de autoatención cuadrática con tokens visualmente redundantes, estrangulando severamente el rendimiento de inferencia mientras ignoran la escasez espacial y la intención de la consulta. Para superar esto, proponemos Q-Zoom, un marco de percepción adaptativa de alta resolución consciente de la consulta que opera de manera eficiente de grueso a fino. Primero, una Red de Puertao Dinámica liviana evita de forma segura el procesamiento de alta resolución cuando las características globales gruesas son suficientes. Segundo, para consultas que demandan percepción de grano fino, una Red de Propuesta de Regiones Auto-Destilada (SD-RPN) localiza precisamente la Región de Interés (RoI) relevante para la tarea directamente desde los espacios de características intermedios. Para optimizar estos módulos eficientemente, la red de puertao utiliza una estrategia de generación consciente de la consistencia para derivar etiquetas de enrutamiento deterministas, mientras que la SD-RPN emplea un paradigma de destilación completamente auto-supervisado. Un esquema de alineación espacio-temporal continuo y un ajuste fino dirigido fusionan luego de manera seamless la RoI local densa con el diseño global grueso. Experimentos exhaustivos demuestran que Q-Zoom establece una frontera de Pareto dominante. Usando Qwen2.5-VL-7B como banco de pruebas principal, Q-Zoom acelera la inferencia en 2.52 veces en benchmarks de Documentos & OCR y 4.39 veces en escenarios de Alta Resolución, mientras iguala la precisión máxima de la línea base. Además, cuando se configura para la máxima fidelidad perceptual, Q-Zoom supera el rendimiento máximo de la línea base en un 1.1% y un 8.1% en estos benchmarks respectivos. Estas mejoras robustas se transfieren seamlessmente a Qwen3-VL, LLaVA y los emergentes modelos de pensamiento-con-imagen basados en RL. La página del proyecto está disponible en https://yuhengsss.github.io/Q-Zoom/.
English
MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.