詳細を捉える:きめ細かいMLLM知覚のための自己蒸留型RoI予測器
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
September 21, 2025
著者: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、細かい粒度の知覚を実現するために高解像度の視覚情報を必要としますが、高解像度画像全体を処理することは計算上非現実的です。最近の手法では、注目領域(RoI)メカニズムを活用して重要な領域に焦点を当てていますが、これらは通常、難しいトレードオフを伴います。トレーニングベースのアプローチは大規模な注釈付きデータセットに依存し、一方でモデルの内部アテンションを利用するトレーニング不要の手法は計算効率が悪く、精度も低く、複数回のプリフィル段階を必要とするか、遅い自己回帰デコーディングプロセスに依存します。本論文では、このトレードオフを解決する効率的で注釈不要の自己蒸留型領域提案ネットワーク(SD-RPN)を提案します。SD-RPNは、MLLMの中間層からのノイズの多いアテンションマップを、信号を明示的にノイズ除去し曖昧さを解決することで高品質な疑似RoIラベルに変換するパイプラインを中心に構築されています。これらのラベルを使用して、より正確な位置特定を学習する軽量な領域提案ネットワーク(RPN)をトレーニングします。このRPNは非常に効率的で、MLLMの中間層からの特徴を利用して単一のフォワードパスでRoIを予測し、RoIの識別を自己回帰生成から切り離し、コストのかかる複数回の操作を回避します。我々のアプローチを検証するために、このフレームワークをLLaVA-1.5アーキテクチャに統合しました。わずか数(例:10K)の質問-回答ペアでトレーニングされたにもかかわらず、我々の手法は優れたデータ効率性と汎化性能を示し、TextVQA、DocVQA、V-Starなどの未見のベンチマークで10%以上の絶対精度向上を達成しました。我々の研究は、高コストな監視やモデル全体のファインチューニングを必要とせずに、MLLMsの細かい粒度の知覚を向上させるための実用的でスケーラブルなソリューションを提供します。コードはhttps://github.com/YuHengsss/SD-RPNで公開されています。
English
Multimodal Large Language Models (MLLMs) require high-resolution visual
information to perform fine-grained perception, yet processing entire
high-resolution images is computationally prohibitive. While recent methods
leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they
typically present a difficult trade-off: training-based approaches depend on
large-scale annotated datasets, while training-free methods that utilize the
model's internal attention are computationally inefficient and less accurate,
requiring either multi-pass prefill stages or reliance on the slow
auto-regressive decoding process. In this paper, we propose an efficient,
annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves
this trade-off. The SD-RPN is built around a pipeline that transforms the noisy
attention maps from the MLLM's middle layers into high-quality pseudo-RoI
labels by explicitly denoising the signal and resolving ambiguity. We use these
labels to train a lightweight Region Proposal Network (RPN) that learns a more
precise localization. This RPN is also highly efficient, predicting the RoI in
a single forward pass using features from the MLLM's middle layers, decoupling
RoI identification from the auto-regressive generation and avoiding costly
multi-pass operations.To validate our approach, we integrate the framework into
the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K)
question-answer pairs, our method demonstrates exceptional data efficiency and
generalization, achieving over a 10% absolute accuracy improvement on unseen
benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a
practical and scalable solution for enhancing the fine-grained perception of
MLLMs without requiring costly supervision or full model fine-tuning. Code is
available at https://github.com/YuHengsss/SD-RPN.