ChatPaper.aiChatPaper

Capturer les détails : Prédicteurs de RoI auto-distillés pour une perception fine des MLLM

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

September 21, 2025
papers.authors: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) nécessitent des informations visuelles haute résolution pour effectuer une perception fine, mais le traitement d'images entières en haute résolution est prohibitif en termes de calcul. Bien que les méthodes récentes exploitent un mécanisme de Région d'Intérêt (RoI) pour se concentrer sur les zones saillantes, elles présentent généralement un compromis difficile : les approches basées sur l'apprentissage dépendent de jeux de données annotés à grande échelle, tandis que les méthodes sans apprentissage qui utilisent l'attention interne du modèle sont inefficaces sur le plan computationnel et moins précises, nécessitant soit des étapes de préremplissage multi-passes, soit un recours au processus de décodage auto-régressif lent. Dans cet article, nous proposons un Réseau de Proposition de Région auto-distillé (SD-RPN) efficace et sans annotation, qui résout ce compromis. Le SD-RPN est construit autour d'un pipeline qui transforme les cartes d'attention bruyantes des couches intermédiaires du MLLM en étiquettes pseudo-RoI de haute qualité en débruitant explicitement le signal et en résolvant les ambiguïtés. Nous utilisons ces étiquettes pour entraîner un Réseau de Proposition de Région (RPN) léger qui apprend une localisation plus précise. Ce RPN est également très efficace, prédisant la RoI en une seule passe avant en utilisant les caractéristiques des couches intermédiaires du MLLM, découplant ainsi l'identification de la RoI de la génération auto-régressive et évitant les opérations multi-passes coûteuses. Pour valider notre approche, nous intégrons le framework dans l'architecture LLaVA-1.5. Bien qu'entraîné sur seulement quelques milliers (par exemple 10K) de paires question-réponse, notre méthode démontre une efficacité et une généralisation exceptionnelles, obtenant une amélioration absolue de plus de 10 % en précision sur des benchmarks non vus, notamment TextVQA, DocVQA et V-Star. Notre travail présente une solution pratique et évolutive pour améliorer la perception fine des MLLMs sans nécessiter de supervision coûteuse ou de réglage complet du modèle. Le code est disponible à l'adresse https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations.To validate our approach, we integrate the framework into the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
PDF32February 7, 2026