Die Details erfassen: Selbst-distillierte RoI-Prädiktoren für fein granulierte MLLM-Wahrnehmung
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
September 21, 2025
papers.authors: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) benötigen hochauflösende visuelle Informationen, um fein abgestufte Wahrnehmungsaufgaben durchzuführen, doch die Verarbeitung gesamter hochauflösender Bilder ist rechenintensiv. Während neuere Methoden einen Region-of-Interest (RoI)-Mechanismus nutzen, um sich auf relevante Bereiche zu konzentrieren, stellen sie typischerweise eine schwierige Abwägung dar: Trainingsbasierte Ansätze sind auf groß angelegte annotierte Datensätze angewiesen, während trainingsfreie Methoden, die die interne Aufmerksamkeit des Modells nutzen, rechenineffizient und weniger genau sind und entweder mehrstufige Prefill-Phasen oder die langsame auto-regressive Decodierung erfordern. In diesem Artikel schlagen wir ein effizientes, annotierungsfreies Self-Distilled Region Proposal Network (SD-RPN) vor, das diesen Kompromiss auflöst. Das SD-RPN basiert auf einer Pipeline, die die verrauschten Aufmerksamkeitskarten aus den mittleren Schichten des MLLMs durch explizite Entrauschung und Auflösung von Mehrdeutigkeiten in hochwertige pseudo-RoI-Labels umwandelt. Wir verwenden diese Labels, um ein leichtgewichtiges Region Proposal Network (RPN) zu trainieren, das eine präzisere Lokalisierung erlernt. Dieses RPN ist ebenfalls hoch effizient und sagt den RoI in einem einzigen Vorwärtsdurchlauf unter Verwendung von Merkmalen aus den mittleren Schichten des MLLMs voraus, wodurch die RoI-Identifikation von der auto-regressiven Generierung entkoppelt und kostspielige mehrstufige Operationen vermieden werden. Um unseren Ansatz zu validieren, integrieren wir das Framework in die LLaVA-1.5-Architektur. Obwohl es nur mit wenigen (z.B. 10.000) Frage-Antwort-Paaren trainiert wurde, zeigt unsere Methode eine außergewöhnliche Dateneffizienz und Generalisierungsfähigkeit und erreicht eine absolute Genauigkeitssteigerung von über 10 % auf unbekannten Benchmarks, darunter TextVQA, DocVQA und V-Star. Unsere Arbeit bietet eine praktische und skalierbare Lösung zur Verbesserung der fein abgestuften Wahrnehmung von MLLMs, ohne kostspielige Supervision oder eine vollständige Modellfeinanpassung zu erfordern. Der Code ist verfügbar unter https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual
information to perform fine-grained perception, yet processing entire
high-resolution images is computationally prohibitive. While recent methods
leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they
typically present a difficult trade-off: training-based approaches depend on
large-scale annotated datasets, while training-free methods that utilize the
model's internal attention are computationally inefficient and less accurate,
requiring either multi-pass prefill stages or reliance on the slow
auto-regressive decoding process. In this paper, we propose an efficient,
annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves
this trade-off. The SD-RPN is built around a pipeline that transforms the noisy
attention maps from the MLLM's middle layers into high-quality pseudo-RoI
labels by explicitly denoising the signal and resolving ambiguity. We use these
labels to train a lightweight Region Proposal Network (RPN) that learns a more
precise localization. This RPN is also highly efficient, predicting the RoI in
a single forward pass using features from the MLLM's middle layers, decoupling
RoI identification from the auto-regressive generation and avoiding costly
multi-pass operations.To validate our approach, we integrate the framework into
the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K)
question-answer pairs, our method demonstrates exceptional data efficiency and
generalization, achieving over a 10% absolute accuracy improvement on unseen
benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a
practical and scalable solution for enhancing the fine-grained perception of
MLLMs without requiring costly supervision or full model fine-tuning. Code is
available at https://github.com/YuHengsss/SD-RPN.