Capturer les détails : Prédicteurs de RoI auto-distillés pour une perception fine des MLLM
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
September 21, 2025
papers.authors: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) nécessitent des informations visuelles haute résolution pour effectuer une perception fine, mais le traitement d'images entières en haute résolution est prohibitif en termes de calcul. Bien que les méthodes récentes exploitent un mécanisme de Région d'Intérêt (RoI) pour se concentrer sur les zones saillantes, elles présentent généralement un compromis difficile : les approches basées sur l'apprentissage dépendent de jeux de données annotés à grande échelle, tandis que les méthodes sans apprentissage qui utilisent l'attention interne du modèle sont inefficaces sur le plan computationnel et moins précises, nécessitant soit des étapes de préremplissage multi-passes, soit un recours au processus de décodage auto-régressif lent. Dans cet article, nous proposons un Réseau de Proposition de Région auto-distillé (SD-RPN) efficace et sans annotation, qui résout ce compromis. Le SD-RPN est construit autour d'un pipeline qui transforme les cartes d'attention bruyantes des couches intermédiaires du MLLM en étiquettes pseudo-RoI de haute qualité en débruitant explicitement le signal et en résolvant les ambiguïtés. Nous utilisons ces étiquettes pour entraîner un Réseau de Proposition de Région (RPN) léger qui apprend une localisation plus précise. Ce RPN est également très efficace, prédisant la RoI en une seule passe avant en utilisant les caractéristiques des couches intermédiaires du MLLM, découplant ainsi l'identification de la RoI de la génération auto-régressive et évitant les opérations multi-passes coûteuses. Pour valider notre approche, nous intégrons le framework dans l'architecture LLaVA-1.5. Bien qu'entraîné sur seulement quelques milliers (par exemple 10K) de paires question-réponse, notre méthode démontre une efficacité et une généralisation exceptionnelles, obtenant une amélioration absolue de plus de 10 % en précision sur des benchmarks non vus, notamment TextVQA, DocVQA et V-Star. Notre travail présente une solution pratique et évolutive pour améliorer la perception fine des MLLMs sans nécessiter de supervision coûteuse ou de réglage complet du modèle. Le code est disponible à l'adresse https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual
information to perform fine-grained perception, yet processing entire
high-resolution images is computationally prohibitive. While recent methods
leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they
typically present a difficult trade-off: training-based approaches depend on
large-scale annotated datasets, while training-free methods that utilize the
model's internal attention are computationally inefficient and less accurate,
requiring either multi-pass prefill stages or reliance on the slow
auto-regressive decoding process. In this paper, we propose an efficient,
annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves
this trade-off. The SD-RPN is built around a pipeline that transforms the noisy
attention maps from the MLLM's middle layers into high-quality pseudo-RoI
labels by explicitly denoising the signal and resolving ambiguity. We use these
labels to train a lightweight Region Proposal Network (RPN) that learns a more
precise localization. This RPN is also highly efficient, predicting the RoI in
a single forward pass using features from the MLLM's middle layers, decoupling
RoI identification from the auto-regressive generation and avoiding costly
multi-pass operations.To validate our approach, we integrate the framework into
the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K)
question-answer pairs, our method demonstrates exceptional data efficiency and
generalization, achieving over a 10% absolute accuracy improvement on unseen
benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a
practical and scalable solution for enhancing the fine-grained perception of
MLLMs without requiring costly supervision or full model fine-tuning. Code is
available at https://github.com/YuHengsss/SD-RPN.