Capturando os Detalhes: Preditores de RoI Auto-Distilados para Percepção de MLLM de Granularidade Fina
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
September 21, 2025
Autores: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) requerem informações visuais de alta resolução para realizar percepção de granularidade fina, mas processar imagens inteiras em alta resolução é computacionalmente proibitivo. Embora métodos recentes utilizem um mecanismo de Região de Interesse (RoI) para focar em áreas salientes, eles geralmente apresentam uma difícil troca: abordagens baseadas em treinamento dependem de conjuntos de dados anotados em grande escala, enquanto métodos sem treinamento que utilizam a atenção interna do modelo são computacionalmente ineficientes e menos precisos, exigindo estágios de pré-preenchimento multipassos ou dependência do lento processo de decodificação auto-regressiva. Neste artigo, propomos uma Rede de Proposta de Região Auto-Distilada (SD-RPN) eficiente e sem anotações que resolve essa troca. A SD-RPN é construída em torno de um pipeline que transforma os mapas de atenção ruidosos das camadas intermediárias do MLLM em rótulos pseudo-RoI de alta qualidade, denoizando explicitamente o sinal e resolvendo ambiguidades. Utilizamos esses rótulos para treinar uma Rede de Proposta de Região (RPN) leve que aprende uma localização mais precisa. Essa RPN também é altamente eficiente, prevendo a RoI em uma única passada direta usando características das camadas intermediárias do MLLM, desacoplando a identificação da RoI da geração auto-regressiva e evitando operações multipassos custosas. Para validar nossa abordagem, integramos o framework na arquitetura LLaVA-1.5. Apesar de ser treinado com apenas alguns (por exemplo, 10 mil) pares de perguntas e respostas, nosso método demonstra excepcional eficiência de dados e generalização, alcançando uma melhoria de mais de 10% em precisão absoluta em benchmarks não vistos, incluindo TextVQA, DocVQA e V-Star. Nosso trabalho apresenta uma solução prática e escalável para aprimorar a percepção de granularidade fina dos MLLMs sem exigir supervisão custosa ou ajuste fino completo do modelo. O código está disponível em https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual
information to perform fine-grained perception, yet processing entire
high-resolution images is computationally prohibitive. While recent methods
leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they
typically present a difficult trade-off: training-based approaches depend on
large-scale annotated datasets, while training-free methods that utilize the
model's internal attention are computationally inefficient and less accurate,
requiring either multi-pass prefill stages or reliance on the slow
auto-regressive decoding process. In this paper, we propose an efficient,
annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves
this trade-off. The SD-RPN is built around a pipeline that transforms the noisy
attention maps from the MLLM's middle layers into high-quality pseudo-RoI
labels by explicitly denoising the signal and resolving ambiguity. We use these
labels to train a lightweight Region Proposal Network (RPN) that learns a more
precise localization. This RPN is also highly efficient, predicting the RoI in
a single forward pass using features from the MLLM's middle layers, decoupling
RoI identification from the auto-regressive generation and avoiding costly
multi-pass operations.To validate our approach, we integrate the framework into
the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K)
question-answer pairs, our method demonstrates exceptional data efficiency and
generalization, achieving over a 10% absolute accuracy improvement on unseen
benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a
practical and scalable solution for enhancing the fine-grained perception of
MLLMs without requiring costly supervision or full model fine-tuning. Code is
available at https://github.com/YuHengsss/SD-RPN.