Q-Zoom: Запросно-адаптивное восприятие для эффективных мультимодальных больших языковых моделей

Аннотация

Мультимодальные языковые модели (MLLM) требуют высококачественных визуальных входных данных для задач, требующих тонкого анализа, таких как понимание документов и плотное восприятие сцен. Однако современные парадигмы глобального масштабирования разрешения без разбора перегружают квадратичный механизм самовнимания визуально избыточными токенами, создавая серьезное узкое место для пропускной способности вывода и игнорируя пространственную разреженность и интенции запросов. Для преодоления этого мы предлагаем Q-Zoom — адаптивную систему восприятия высокого разрешения, учитывающую запросы и работающую по эффективной схеме «от грубого к точному». Сначала облегченная динамическая сеть с механизмом затвора безопасно пропускает обработку высокого разрешения, когда достаточно грубых глобальных признаков. Во-вторых, для запросов, требующих тонкого восприятия, самообучаемая сеть предложения регионов (SD-RPN) точно локализует релевантную для задачи область интереса (RoI) непосредственно из промежуточных пространств признаков. Для эффективной оптимизации этих модулей сеть затвора использует стратегию генерации с учетом согласованности для получения детерминированных меток маршрутизации, в то время как SD-RPN применяет полностью самоконтролируемую парадигму дистилляции. Схема непрерывного пространственно-временного выравнивания и целевая тонкая настройка затем бесшовно объединяют плотную локальную RoI с грубой глобальной структурой. Многочисленные эксперименты демонстрируют, что Q-Zoom устанавливает доминирующий фронт Парето. Используя Qwen2.5-VL-7B в качестве основного тестового стенда, Q-Zoom ускоряет вывод в 2.52 раза на бенчмарках Document & OCR и в 4.39 раза в сценариях с высоким разрешением, сохраняя при этом пиковую точность базового уровня. Более того, при конфигурации на максимальную перцептивную точность Q-Zoom превосходит пиковую производительность базового уровня на 1.1% и 8.1% на соответствующих бенчмарках. Эти устойчивые улучшения бесшовно переносятся на Qwen3-VL, LLaVA и новые модели мышления-с-изображениями на основе обучения с подкреплением. Страница проекта доступна по адресу https://yuhengsss.github.io/Q-Zoom/.

English

MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.

Q-Zoom: Запросно-адаптивное восприятие для эффективных мультимодальных больших языковых моделей

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

Аннотация

Support