ChatPaper.aiChatPaper

Die Details erfassen: Selbst-distillierte RoI-Prädiktoren für fein granulierte MLLM-Wahrnehmung

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

September 21, 2025
papers.authors: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI

papers.abstract

Multimodale Large Language Models (MLLMs) benötigen hochauflösende visuelle Informationen, um fein abgestufte Wahrnehmungsaufgaben durchzuführen, doch die Verarbeitung gesamter hochauflösender Bilder ist rechenintensiv. Während neuere Methoden einen Region-of-Interest (RoI)-Mechanismus nutzen, um sich auf relevante Bereiche zu konzentrieren, stellen sie typischerweise eine schwierige Abwägung dar: Trainingsbasierte Ansätze sind auf groß angelegte annotierte Datensätze angewiesen, während trainingsfreie Methoden, die die interne Aufmerksamkeit des Modells nutzen, rechenineffizient und weniger genau sind und entweder mehrstufige Prefill-Phasen oder die langsame auto-regressive Decodierung erfordern. In diesem Artikel schlagen wir ein effizientes, annotierungsfreies Self-Distilled Region Proposal Network (SD-RPN) vor, das diesen Kompromiss auflöst. Das SD-RPN basiert auf einer Pipeline, die die verrauschten Aufmerksamkeitskarten aus den mittleren Schichten des MLLMs durch explizite Entrauschung und Auflösung von Mehrdeutigkeiten in hochwertige pseudo-RoI-Labels umwandelt. Wir verwenden diese Labels, um ein leichtgewichtiges Region Proposal Network (RPN) zu trainieren, das eine präzisere Lokalisierung erlernt. Dieses RPN ist ebenfalls hoch effizient und sagt den RoI in einem einzigen Vorwärtsdurchlauf unter Verwendung von Merkmalen aus den mittleren Schichten des MLLMs voraus, wodurch die RoI-Identifikation von der auto-regressiven Generierung entkoppelt und kostspielige mehrstufige Operationen vermieden werden. Um unseren Ansatz zu validieren, integrieren wir das Framework in die LLaVA-1.5-Architektur. Obwohl es nur mit wenigen (z.B. 10.000) Frage-Antwort-Paaren trainiert wurde, zeigt unsere Methode eine außergewöhnliche Dateneffizienz und Generalisierungsfähigkeit und erreicht eine absolute Genauigkeitssteigerung von über 10 % auf unbekannten Benchmarks, darunter TextVQA, DocVQA und V-Star. Unsere Arbeit bietet eine praktische und skalierbare Lösung zur Verbesserung der fein abgestuften Wahrnehmung von MLLMs, ohne kostspielige Supervision oder eine vollständige Modellfeinanpassung zu erfordern. Der Code ist verfügbar unter https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations.To validate our approach, we integrate the framework into the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
PDF32February 7, 2026