Capturando os Detalhes: Preditores de RoI Auto-Distilados para Percepção de MLLM de Granularidade Fina

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) requerem informações visuais de alta resolução para realizar percepção de granularidade fina, mas processar imagens inteiras em alta resolução é computacionalmente proibitivo. Embora métodos recentes utilizem um mecanismo de Região de Interesse (RoI) para focar em áreas salientes, eles geralmente apresentam uma difícil troca: abordagens baseadas em treinamento dependem de conjuntos de dados anotados em grande escala, enquanto métodos sem treinamento que utilizam a atenção interna do modelo são computacionalmente ineficientes e menos precisos, exigindo estágios de pré-preenchimento multipassos ou dependência do lento processo de decodificação auto-regressiva. Neste artigo, propomos uma Rede de Proposta de Região Auto-Distilada (SD-RPN) eficiente e sem anotações que resolve essa troca. A SD-RPN é construída em torno de um pipeline que transforma os mapas de atenção ruidosos das camadas intermediárias do MLLM em rótulos pseudo-RoI de alta qualidade, denoizando explicitamente o sinal e resolvendo ambiguidades. Utilizamos esses rótulos para treinar uma Rede de Proposta de Região (RPN) leve que aprende uma localização mais precisa. Essa RPN também é altamente eficiente, prevendo a RoI em uma única passada direta usando características das camadas intermediárias do MLLM, desacoplando a identificação da RoI da geração auto-regressiva e evitando operações multipassos custosas. Para validar nossa abordagem, integramos o framework na arquitetura LLaVA-1.5. Apesar de ser treinado com apenas alguns (por exemplo, 10 mil) pares de perguntas e respostas, nosso método demonstra excepcional eficiência de dados e generalização, alcançando uma melhoria de mais de 10% em precisão absoluta em benchmarks não vistos, incluindo TextVQA, DocVQA e V-Star. Nosso trabalho apresenta uma solução prática e escalável para aprimorar a percepção de granularidade fina dos MLLMs sem exigir supervisão custosa ou ajuste fino completo do modelo. O código está disponível em https://github.com/YuHengsss/SD-RPN.

English

Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations.To validate our approach, we integrate the framework into the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.

Capturando os Detalhes: Preditores de RoI Auto-Distilados para Percepção de MLLM de Granularidade Fina

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Resumo

Support