Q-Zoom: Percepção Adaptável Consciente da Consulta para Modelos de Linguagem Multimodais Eficientes

Resumo

Os MLLMs exigem entradas visuais de alta resolução para tarefas de granularidade fina, como compreensão de documentos e percepção densa de cenas. No entanto, os paradigmas atuais de escalonamento global de resolução inundam indiscriminadamente o mecanismo de self-attention quadrática com tokens visualmente redundantes, criando um grave gargalo na taxa de inferência enquanto ignoram a esparsidade espacial e a intenção da consulta. Para superar isso, propomos o Q-Zoom, uma estrutura de percepção adaptativa de alta resolução e consciente da consulta que opera de forma eficiente no modo coarse-to-fine. Primeiro, uma Dynamic Gating Network leve ignora com segurança o processamento de alta resolução quando características globais de baixa granularidade são suficientes. Segundo, para consultas que exigem percepção de granularidade fina, uma Self-Distilled Region Proposal Network (SD-RPN) localiza precisamente a Região de Interesse (RoI) relevante para a tarefa diretamente a partir dos espaços de características intermediários. Para otimizar esses módulos de forma eficiente, a rede de gateamento usa uma estratégia de geração consistency-aware para derivar rótulos de roteamento determinísticos, enquanto a SD-RPN emprega um paradigma de destilação totalmente autossupervisionado. Um esquema de alinhamento espaço-temporal contínuo e um fine-tuning direcionado fundem então perfeitamente a RoI local densa com o layout global de baixa granularidade. Experimentos extensivos demonstram que o Q-Zoom estabelece uma fronteira de Pareto dominante. Usando o Qwen2.5-VL-7B como plataforma de teste principal, o Q-Zoom acelera a inferência em 2,52 vezes em benchmarks de Document & OCR e 4,39 vezes em cenários de Alta Resolução, enquanto iguala a precisão máxima da baseline. Além disso, quando configurado para máxima fidelidade perceptual, o Q-Zoom supera o desempenho de pico da baseline em 1,1% e 8,1% nestes benchmarks respectivos. Essas melhorias robustas transferem-se perfeitamente para o Qwen3-VL, LLaVA e modelos emergentes baseados em RL de pensamento com imagens. A página do projeto está disponível em https://yuhengsss.github.io/Q-Zoom/.

English

MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.

Q-Zoom: Percepção Adaptável Consciente da Consulta para Modelos de Linguagem Multimodais Eficientes

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

Resumo

Support