Q-Zoom: Percezione Adattiva Consapevole delle Query per Modelli Linguistici Multimodali Efficienti

Abstract

I modelli linguistici multimodali (MLLM) richiedono input visivi ad alta risoluzione per compiti di granularità fine come la comprensione di documenti e la percezione di scene dense. Tuttavia, gli attuali paradigmi di ridimensionamento della risoluzione globale inondano indiscriminatamente il meccanismo di self-attention quadratico con token visivamente ridondanti, creando un grave collo di bottiglia per il throughput inferenziale mentre ignorano la sparsità spaziale e l'intento della query. Per superare questo limite, proponiamo Q-Zoom, un framework di percezione adattiva ad alta risoluzione e consapevole della query che opera in modo efficiente con un approccio coarse-to-fine. In primo luogo, una Dynamic Gating Network leggera bypassa in sicurezza l'elaborazione ad alta risoluzione quando le caratteristiche globali grossolane sono sufficienti. In secondo luogo, per le query che richiedono una percezione di granularità fine, una Self-Distilled Region Proposal Network (SD-RPN) localizza precisamente la Regione di Interesse (RoI) rilevante per il compito direttamente dagli spazi delle feature intermedi. Per ottimizzare questi moduli in modo efficiente, la gating network utilizza una strategia di generazione consistency-aware per derivare etichette di routing deterministiche, mentre la SD-RPN impiega un paradigma di distillazione completamente auto-supervisionato. Uno schema di allineamento spazio-temporale continuo e un fine-tuning mirato fondono poi senza soluzione di continuità la RoI locale densa con il layout globale grossolano. Esperimenti estensivi dimostrano che Q-Zoom stabilisce una frontiera di Pareto dominante. Utilizzando Qwen2.5-VL-7B come piattaforma di test principale, Q-Zoom accelera l'inferenza di 2.52 volte sui benchmark di Document & OCR e di 4.39 volte negli scenari ad Alta Risoluzione, eguagliando la massima accuratezza del baseline. Inoltre, quando configurato per la massima fedeltà percettiva, Q-Zoom supera le prestazioni di picco del baseline rispettivamente dell'1.1% e dell'8.1% su questi benchmark. Questi robusti miglioramenti si trasferiscono senza soluzione di continuità a Qwen3-VL, LLaVA e ai nuovi modelli di ragionamento con immagini basati su RL. La pagina del progetto è disponibile all'indirizzo https://yuhengsss.github.io/Q-Zoom/.

English

MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.

Q-Zoom: Percezione Adattiva Consapevole delle Query per Modelli Linguistici Multimodali Efficienti

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

Abstract

Support