視覚入力を圧縮できるか?大規模マルチモーダルモデルのための視覚トークン圧縮ベンチマーク
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
November 4, 2025
著者: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI
要旨
大規模マルチモーダルモデル(LMM)は、画像エンコーダによって導入される大量の視覚トークンにより、推論の非効率性に悩まされることが多い。近年、剪定や統合などのトークン圧縮手法が冗長性削減の可能性を示しているが、その評価は断片的で一貫性に欠ける。本研究では、マルチモーダルLLMにおける視覚トークン剪定のための統合的かつ拡張可能なベンチマーク「UniPruneBench」を提案する。UniPruneBenchは、6つの能力次元と10のデータセットにわたる標準化された評価プロトコルを提供し、10の代表的な圧縮アルゴリズムと3つのLMMファミリー(LLaVA-v1.5、Intern-VL3、Qwen2.5-VL)を網羅する。タスク精度に加え、実行時間やプリフィル遅延などのシステムレベル指標を統合し、包括的な視点を提供する。実験により以下の主要な知見を得た:(1)ランダム剪定が驚くほど強力なベースラインである、(2)単一の手法が全シナリオで他を一貫して凌駕するものはない、(3)剪定への感度はタスク間で大きく異なり、OCRが最も脆弱である、(4)剪定率が性能劣化を支配する主要因である。UniPruneBenchが効率的なマルチモーダルモデリングの将来研究における信頼できる基盤となることを期待する。
English
Large multimodal models (LMMs) often suffer from severe inference
inefficiency due to the large number of visual tokens introduced by image
encoders. While recent token compression methods, such as pruning and merging,
have shown promise in reducing redundancy, their evaluation remains fragmented
and inconsistent. In this work, we present UniPruneBench, a unified and
extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench
provides standardized protocols across six ability dimensions and ten datasets,
covering ten representative compression algorithms and three families of LMMs
(LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates
system-level metrics such as runtime and prefilling latency to provide a
holistic view. Our experiments uncover several key findings: (1) random pruning
is a surprisingly strong baseline, (2) no single method consistently
outperforms others across scenarios, (3) pruning sensitivity varies
significantly across tasks, with OCR being most vulnerable, and (4) pruning
ratio is the dominant factor governing performance degradation. We believe
UniPruneBench will serve as a reliable foundation for future research on
efficient multimodal modeling.