ChatPaper.aiChatPaper

Catturare i dettagli: predittori di RoI auto-distillati per la percezione fine-grana nei MLLM

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

September 21, 2025
Autori: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) richiedono informazioni visive ad alta risoluzione per eseguire una percezione fine, ma elaborare intere immagini ad alta risoluzione è computazionalmente proibitivo. Sebbene i metodi recenti sfruttino un meccanismo di Regione di Interesse (RoI) per concentrarsi su aree salienti, presentano tipicamente un difficile compromesso: gli approcci basati su addestramento dipendono da dataset annotati su larga scala, mentre i metodi senza addestramento che utilizzano l'attenzione interna del modello sono computazionalmente inefficienti e meno accurati, richiedendo fasi di prefill multi-pass o affidandosi al lento processo di decodifica auto-regressiva. In questo articolo, proponiamo una Rete di Proposta di Regioni Auto-Distillata (SD-RPN) efficiente e senza annotazioni che risolve questo compromesso. La SD-RPN è costruita attorno a una pipeline che trasforma le mappe di attenzione rumorose degli strati intermedi dell'MLLM in etichette pseudo-RoI di alta qualità, denoizzando esplicitamente il segnale e risolvendo le ambiguità. Utilizziamo queste etichette per addestrare una leggera Rete di Proposta di Regioni (RPN) che apprende una localizzazione più precisa. Questa RPN è anche altamente efficiente, prevedendo la RoI in un singolo passaggio in avanti utilizzando le caratteristiche degli strati intermedi dell'MLLM, disaccoppiando l'identificazione della RoI dalla generazione auto-regressiva ed evitando costose operazioni multi-pass. Per validare il nostro approccio, integriamo il framework nell'architettura LLaVA-1.5. Nonostante sia addestrato su pochi (ad esempio 10K) coppie domanda-risposta, il nostro metodo dimostra un'eccellente efficienza dei dati e generalizzazione, ottenendo un miglioramento assoluto di oltre il 10% in termini di accuratezza su benchmark non visti, tra cui TextVQA, DocVQA e V-Star. Il nostro lavoro presenta una soluzione pratica e scalabile per migliorare la percezione fine degli MLLM senza richiedere supervisione costosa o fine-tuning completo del modello. Il codice è disponibile all'indirizzo https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations.To validate our approach, we integrate the framework into the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
PDF22October 2, 2025