디테일 포착: 세밀한 MLLM 인식을 위한 자기-증류 RoI 예측기
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
September 21, 2025
저자: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 세밀한 인식을 수행하기 위해 고해상도 시각 정보를 필요로 하지만, 전체 고해상도 이미지를 처리하는 것은 계산적으로 부담이 큽니다. 최근 방법들은 관심 영역(RoI) 메커니즘을 활용하여 중요한 영역에 집중하지만, 일반적으로 어려운 절충을 요구합니다: 훈련 기반 접근법은 대규모 주석 데이터셋에 의존하는 반면, 모델의 내부 주의 메커니즘을 활용하는 훈련 없는 방법은 계산적으로 비효율적이고 정확도가 낮아, 다중 패스 사전 채우기 단계나 느린 자동 회귀 디코딩 과정에 의존해야 합니다. 본 논문에서는 이러한 절충을 해결하는 효율적이고 주석이 필요 없는 자기-증류 관심 영역 제안 네트워크(SD-RPN)를 제안합니다. SD-RPN은 MLLM의 중간 층에서 나온 노이즈가 있는 주의 맵을 명시적으로 노이즈 제거하고 모호성을 해결하여 고품질의 가상 RoI 레이블로 변환하는 파이프라인을 중심으로 구축되었습니다. 우리는 이러한 레이블을 사용하여 더 정확한 위치 지정을 학습하는 경량 관심 영역 제안 네트워크(RPN)를 훈련시킵니다. 이 RPN은 또한 매우 효율적이며, MLLM의 중간 층에서 나온 특징을 사용하여 단일 순방향 패스로 RoI를 예측함으로써, RoI 식별을 자동 회귀 생성에서 분리하고 비용이 많이 드는 다중 패스 연산을 피합니다. 우리의 접근 방식을 검증하기 위해, 이 프레임워크를 LLaVA-1.5 아키텍처에 통합했습니다. 단 몇 개(예: 10K)의 질문-답변 쌍으로만 훈련되었음에도 불구하고, 우리의 방법은 뛰어난 데이터 효율성과 일반화 능력을 보여주며, TextVQA, DocVQA, V-Star와 같은 보이지 않는 벤치마크에서 10% 이상의 절대 정확도 향상을 달성했습니다. 우리의 연구는 비용이 많이 드는 감독이나 전체 모델 미세 조정 없이 MLLM의 세밀한 인식을 향상시키는 실용적이고 확장 가능한 솔루션을 제시합니다. 코드는 https://github.com/YuHengsss/SD-RPN에서 확인할 수 있습니다.
English
Multimodal Large Language Models (MLLMs) require high-resolution visual
information to perform fine-grained perception, yet processing entire
high-resolution images is computationally prohibitive. While recent methods
leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they
typically present a difficult trade-off: training-based approaches depend on
large-scale annotated datasets, while training-free methods that utilize the
model's internal attention are computationally inefficient and less accurate,
requiring either multi-pass prefill stages or reliance on the slow
auto-regressive decoding process. In this paper, we propose an efficient,
annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves
this trade-off. The SD-RPN is built around a pipeline that transforms the noisy
attention maps from the MLLM's middle layers into high-quality pseudo-RoI
labels by explicitly denoising the signal and resolving ambiguity. We use these
labels to train a lightweight Region Proposal Network (RPN) that learns a more
precise localization. This RPN is also highly efficient, predicting the RoI in
a single forward pass using features from the MLLM's middle layers, decoupling
RoI identification from the auto-regressive generation and avoiding costly
multi-pass operations.To validate our approach, we integrate the framework into
the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K)
question-answer pairs, our method demonstrates exceptional data efficiency and
generalization, achieving over a 10% absolute accuracy improvement on unseen
benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a
practical and scalable solution for enhancing the fine-grained perception of
MLLMs without requiring costly supervision or full model fine-tuning. Code is
available at https://github.com/YuHengsss/SD-RPN.