ChatPaper.aiChatPaper

Capturando los detalles: Predictores de RoI auto-distilados para la percepción de MLLM de grano fino

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

September 21, 2025
Autores: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) requieren información visual de alta resolución para realizar percepciones detalladas, sin embargo, procesar imágenes completas de alta resolución es computacionalmente prohibitivo. Si bien métodos recientes aprovechan un mecanismo de Región de Interés (RoI) para enfocarse en áreas destacadas, típicamente presentan una difícil disyuntiva: los enfoques basados en entrenamiento dependen de grandes conjuntos de datos anotados, mientras que los métodos libres de entrenamiento que utilizan la atención interna del modelo son computacionalmente ineficientes y menos precisos, requiriendo ya sea etapas de prellenado de múltiples pasos o dependencia del lento proceso de decodificación auto-regresiva. En este artículo, proponemos una Red de Propuesta de Regiones Auto-Distilada (SD-RPN) eficiente y libre de anotaciones que resuelve esta disyuntiva. La SD-RPN se construye alrededor de una canalización que transforma los mapas de atención ruidosos de las capas intermedias del MLLM en etiquetas pseudo-RoI de alta calidad, descomponiendo explícitamente el ruido y resolviendo la ambigüedad. Utilizamos estas etiquetas para entrenar una Red de Propuesta de Regiones (RPN) ligera que aprende una localización más precisa. Esta RPN también es altamente eficiente, prediciendo la RoI en un solo paso hacia adelante utilizando características de las capas intermedias del MLLM, desacoplando la identificación de RoI de la generación auto-regresiva y evitando operaciones costosas de múltiples pasos. Para validar nuestro enfoque, integramos el marco en la arquitectura LLaVA-1.5. A pesar de estar entrenado con solo unos pocos (por ejemplo, 10K) pares de preguntas-respuestas, nuestro método demuestra una excepcional eficiencia de datos y generalización, logrando una mejora de más del 10% en precisión absoluta en benchmarks no vistos, incluyendo TextVQA, DocVQA y V-Star. Nuestro trabajo presenta una solución práctica y escalable para mejorar la percepción detallada de los MLLMs sin requerir supervisión costosa o ajuste fino completo del modelo. El código está disponible en https://github.com/YuHengsss/SD-RPN.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations.To validate our approach, we integrate the framework into the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
PDF32February 7, 2026