Улавливание деталей: самообучаемые предсказатели областей интереса для детализированного восприятия в мультимодальных языковых моделях
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
September 21, 2025
Авторы: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs) требуют высококачественной визуальной информации для выполнения детализированного восприятия, однако обработка целых изображений с высоким разрешением вычислительно неэффективна. Хотя современные методы используют механизм выделения областей интереса (RoI) для фокусировки на значимых участках, они обычно представляют сложный компромисс: подходы, основанные на обучении, зависят от крупномасштабных аннотированных наборов данных, в то время как методы без обучения, использующие внутреннее внимание модели, вычислительно неэффективны и менее точны, требуя либо многоэтапных предварительных стадий, либо зависимости от медленного авторегрессивного процесса декодирования. В данной работе мы предлагаем эффективную, не требующую аннотаций сеть для предложения областей с самообучением (SD-RPN), которая устраняет этот компромисс. SD-RPN построена на основе конвейера, который преобразует зашумленные карты внимания из средних слоев MLLM в высококачественные псевдо-метки RoI путем явного устранения шума и разрешения неоднозначностей. Мы используем эти метки для обучения легковесной сети предложения областей (RPN), которая обучается более точной локализации. Эта RPN также высокоэффективна, предсказывая RoI за один прямой проход с использованием признаков из средних слоев MLLM, отделяя идентификацию RoI от авторегрессивной генерации и избегая затратных многоэтапных операций. Для проверки нашего подхода мы интегрируем фреймворк в архитектуру LLaVA-1.5. Несмотря на обучение всего на нескольких (например, 10K) парах вопрос-ответ, наш метод демонстрирует исключительную эффективность использования данных и обобщаемость, достигая более чем 10% абсолютного улучшения точности на неизвестных бенчмарках, включая TextVQA, DocVQA и V-Star. Наша работа представляет практичное и масштабируемое решение для улучшения детализированного восприятия MLLM без необходимости дорогостоящего контроля или полной тонкой настройки модели. Код доступен по адресу https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual
information to perform fine-grained perception, yet processing entire
high-resolution images is computationally prohibitive. While recent methods
leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they
typically present a difficult trade-off: training-based approaches depend on
large-scale annotated datasets, while training-free methods that utilize the
model's internal attention are computationally inefficient and less accurate,
requiring either multi-pass prefill stages or reliance on the slow
auto-regressive decoding process. In this paper, we propose an efficient,
annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves
this trade-off. The SD-RPN is built around a pipeline that transforms the noisy
attention maps from the MLLM's middle layers into high-quality pseudo-RoI
labels by explicitly denoising the signal and resolving ambiguity. We use these
labels to train a lightweight Region Proposal Network (RPN) that learns a more
precise localization. This RPN is also highly efficient, predicting the RoI in
a single forward pass using features from the MLLM's middle layers, decoupling
RoI identification from the auto-regressive generation and avoiding costly
multi-pass operations.To validate our approach, we integrate the framework into
the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K)
question-answer pairs, our method demonstrates exceptional data efficiency and
generalization, achieving over a 10% absolute accuracy improvement on unseen
benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a
practical and scalable solution for enhancing the fine-grained perception of
MLLMs without requiring costly supervision or full model fine-tuning. Code is
available at https://github.com/YuHengsss/SD-RPN.