Details Vastleggen: Zelfgedistilleerde RoI-voorspellers voor Fijnmazige MLLM-waarneming
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
September 21, 2025
Auteurs: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben hoogwaardige visuele informatie nodig om fijnmazige waarneming uit te voeren, maar het verwerken van volledige hoogresolutiebeelden is rekenkundig onhaalbaar. Hoewel recente methoden een Region-of-Interest (RoI)-mechanisme gebruiken om zich op belangrijke gebieden te concentreren, bieden ze doorgaans een moeilijke afweging: op training gebaseerde benaderingen zijn afhankelijk van grootschalige geannoteerde datasets, terwijl trainingsvrije methoden die gebruikmaken van de interne aandacht van het model rekenkundig inefficiënt en minder nauwkeurig zijn, wat ofwel multi-pass prefill-fasen vereist of afhankelijk is van het trage auto-regressieve decodeerproces. In dit artikel stellen we een efficiënt, annotatievrij Self-Distilled Region Proposal Network (SD-RPN) voor dat deze afweging oplost. De SD-RPN is gebouwd rond een pijplijn die de ruisachtige aandachtkaarten uit de middelste lagen van de MLLM omzet in hoogwaardige pseudo-RoI-labels door het signaal expliciet te ontdoen van ruis en ambiguïteit op te lossen. We gebruiken deze labels om een lichtgewicht Region Proposal Network (RPN) te trainen dat een nauwkeurigere lokalisatie leert. Dit RPN is ook zeer efficiënt en voorspelt de RoI in een enkele voorwaartse pass met behulp van kenmerken uit de middelste lagen van de MLLM, waardoor de RoI-identificatie wordt ontkoppeld van de auto-regressieve generatie en kostbare multi-pass operaties worden vermeden. Om onze aanpak te valideren, integreren we het framework in de LLaVA-1.5-architectuur. Ondanks dat het getraind is op slechts enkele (bijv. 10K) vraag-antwoordparen, toont onze methode uitzonderlijke data-efficiëntie en generalisatie, met een absolute nauwkeurigheidsverbetering van meer dan 10% op onbekende benchmarks, waaronder TextVQA, DocVQA en V-Star. Ons werk biedt een praktische en schaalbare oplossing voor het verbeteren van de fijnmazige waarneming van MLLMs zonder kostbaar toezicht of volledige modelafstemming te vereisen. Code is beschikbaar op https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual
information to perform fine-grained perception, yet processing entire
high-resolution images is computationally prohibitive. While recent methods
leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they
typically present a difficult trade-off: training-based approaches depend on
large-scale annotated datasets, while training-free methods that utilize the
model's internal attention are computationally inefficient and less accurate,
requiring either multi-pass prefill stages or reliance on the slow
auto-regressive decoding process. In this paper, we propose an efficient,
annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves
this trade-off. The SD-RPN is built around a pipeline that transforms the noisy
attention maps from the MLLM's middle layers into high-quality pseudo-RoI
labels by explicitly denoising the signal and resolving ambiguity. We use these
labels to train a lightweight Region Proposal Network (RPN) that learns a more
precise localization. This RPN is also highly efficient, predicting the RoI in
a single forward pass using features from the MLLM's middle layers, decoupling
RoI identification from the auto-regressive generation and avoiding costly
multi-pass operations.To validate our approach, we integrate the framework into
the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K)
question-answer pairs, our method demonstrates exceptional data efficiency and
generalization, achieving over a 10% absolute accuracy improvement on unseen
benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a
practical and scalable solution for enhancing the fine-grained perception of
MLLMs without requiring costly supervision or full model fine-tuning. Code is
available at https://github.com/YuHengsss/SD-RPN.