Q-Zoom: Querybewuste Adaptieve Waarneming voor Efficiënte Multimodale Grote Taalmodellen

Samenvatting

MLLM's vereisen hoogresolutie visuele invoer voor fijnmijnerige taken zoals documentbegrip en dichte scèneperceptie. Huidige paradigma's voor globale resolutieschaling overspoelen echter het kwadratische self-attention-mechanisme ongericht met visueel redundante tokens, wat de inferentiesnelheid ernstig beperkt terwijl ruimtelijke schaarste en query-intentie worden genegeerd. Om dit te overwinnen, stellen we Q-Zoom voor, een query-bewust adaptief hoogresolutieperceptiekader dat efficiënt werkt volgens een coarse-to-fine aanpak. Ten eerste omzeilt een lichtgewicht Dynamic Gating Network veilig de hoogresolutieverwerking wanneer grove globale kenmerken volstaan. Ten tweede lokaliseert een Self-Distilled Region Proposal Network (SD-RPN) voor queries die fijnmijnerige perceptie vereisen, de taakrelevante Region-of-Interest (RoI) nauwkeurig rechtstreeks vanuit intermediare kenmerkruimten. Om deze modules efficiënt te optimaliseren, gebruikt het gating-netwerk een consistentiebewuste generatiestrategie om deterministische routeringslabels af te leiden, terwijl de SD-RPN een volledig zelfgesuperviseerd distillatieparadigma hanteert. Een continu spatio-temporeel aligneringsschema en gerichte fine-tuning versmelten vervolgens de dichte lokale RoI naadloos met de grove globale lay-out. Uitgebreide experimenten tonen aan dat Q-Zoom een dominante Pareto-frontier vestigt. Met Qwen2.5-VL-7B als primaire testomgeving versnelt Q-Zoom de inferentie met 2,52 keer op Document & OCR benchmarks en 4,39 keer in hoogresolutie-scenario's, terwijl de pieknauwkeurigheid van de baseline wordt geëvenaard. Bovendien overschrijdt Q-Zoom, wanneer geconfigureerd voor maximale perceptuele nauwkeurigheid, de piekprestaties van de baseline met respectievelijk 1,1% en 8,1% op deze benchmarks. Deze robuuste verbeteringen zetten zich naadloos voort naar Qwen3-VL, LLaVA en opkomende RL-gebaseerde denken-met-beelden-modellen. De projectpagina is beschikbaar op https://yuhengsss.github.io/Q-Zoom/.

English

MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.

Q-Zoom: Querybewuste Adaptieve Waarneming voor Efficiënte Multimodale Grote Taalmodellen

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

Samenvatting

Support