Q-Zoom : Perception adaptative sensible aux requêtes pour des modèles de langage multimodaux efficaces

Résumé

Les MLLM nécessitent des entrées visuelles haute résolution pour des tâches fines comme la compréhension de documents ou la perception de scènes denses. Cependant, les paradigmes actuels de mise à l'échelle globale inondent indistinctement le mécanisme d'auto-attention quadratique avec des tokens visuellement redondants, ce qui limite sévèrement le débit d'inférence tout en ignorant la parcimonie spatiale et l'intention de la requête. Pour surmonter cela, nous proposons Q-Zoom, un cadre de perception adaptive haute résolution conscient des requêtes, fonctionnant de manière efficace selon une approche grossière-vers-fin. Premièrement, un Réseau de Gating Dynamique léger contourne de manière sûre le traitement haute résolution lorsque les caractéristiques globales grossières suffisent. Deuxièmement, pour les requêtes exigeant une perception fine, un Réseau de Proposition de Région Auto-Distillé (SD-RPN) localise précisément la Région d'Intérêt (RoI) pertinente pour la tâche directement depuis les espaces de caractéristiques intermédiaires. Pour optimiser ces modules efficacement, le réseau de gating utilise une stratégie de génération sensible à la cohérence pour obtenir des étiquettes de routage déterministes, tandis que le SD-RPN emploie un paradigme de distillation entièrement auto-supervisé. Un schéma d'alignement spatio-temporel continu et un affinage ciblé fusionnent ensuite de manière transparente la RoI locale dense avec la disposition globale grossière. Des expériences approfondies démontrent que Q-Zoom établit une frontière de Pareto dominante. En utilisant Qwen2.5-VL-7B comme banc d'essai principal, Q-Zoom accélère l'inférence par 2,52 fois sur les benchmarks Document & OCR et par 4,39 fois dans les scénarios à Haute Résolution, tout en égalant la précision maximale de la baseline. De plus, lorsqu'il est configuré pour une fidélité perceptuelle maximale, Q-Zoom dépasse les performances maximales de la baseline de 1,1 % et 8,1 % sur ces benchmarks respectifs. Ces améliorations robustes se transfèrent de manière transparente à Qwen3-VL, LLaVA et aux modèles émergents de raisonnement sur image basés sur l'apprentissage par renforcement. La page du projet est disponible à l'adresse https://yuhengsss.github.io/Q-Zoom/.

English

MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.

Q-Zoom : Perception adaptative sensible aux requêtes pour des modèles de langage multimodaux efficaces

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

Résumé

Support