Details Vastleggen: Zelfgedistilleerde RoI-voorspellers voor Fijnmazige MLLM-waarneming

Samenvatting

Multimodale Large Language Models (MLLMs) hebben hoogwaardige visuele informatie nodig om fijnmazige waarneming uit te voeren, maar het verwerken van volledige hoogresolutiebeelden is rekenkundig onhaalbaar. Hoewel recente methoden een Region-of-Interest (RoI)-mechanisme gebruiken om zich op belangrijke gebieden te concentreren, bieden ze doorgaans een moeilijke afweging: op training gebaseerde benaderingen zijn afhankelijk van grootschalige geannoteerde datasets, terwijl trainingsvrije methoden die gebruikmaken van de interne aandacht van het model rekenkundig inefficiënt en minder nauwkeurig zijn, wat ofwel multi-pass prefill-fasen vereist of afhankelijk is van het trage auto-regressieve decodeerproces. In dit artikel stellen we een efficiënt, annotatievrij Self-Distilled Region Proposal Network (SD-RPN) voor dat deze afweging oplost. De SD-RPN is gebouwd rond een pijplijn die de ruisachtige aandachtkaarten uit de middelste lagen van de MLLM omzet in hoogwaardige pseudo-RoI-labels door het signaal expliciet te ontdoen van ruis en ambiguïteit op te lossen. We gebruiken deze labels om een lichtgewicht Region Proposal Network (RPN) te trainen dat een nauwkeurigere lokalisatie leert. Dit RPN is ook zeer efficiënt en voorspelt de RoI in een enkele voorwaartse pass met behulp van kenmerken uit de middelste lagen van de MLLM, waardoor de RoI-identificatie wordt ontkoppeld van de auto-regressieve generatie en kostbare multi-pass operaties worden vermeden. Om onze aanpak te valideren, integreren we het framework in de LLaVA-1.5-architectuur. Ondanks dat het getraind is op slechts enkele (bijv. 10K) vraag-antwoordparen, toont onze methode uitzonderlijke data-efficiëntie en generalisatie, met een absolute nauwkeurigheidsverbetering van meer dan 10% op onbekende benchmarks, waaronder TextVQA, DocVQA en V-Star. Ons werk biedt een praktische en schaalbare oplossing voor het verbeteren van de fijnmazige waarneming van MLLMs zonder kostbaar toezicht of volledige modelafstemming te vereisen. Code is beschikbaar op https://github.com/YuHengsss/SD-RPN.

English

Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations.To validate our approach, we integrate the framework into the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.

Details Vastleggen: Zelfgedistilleerde RoI-voorspellers voor Fijnmazige MLLM-waarneming

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Samenvatting

Support