ChatPaper.aiChatPaper

시각적 입력을 압축할 수 있을까? 대규모 멀티모달 모델을 위한 시각적 토큰 압축 벤치마크

Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

November 4, 2025
저자: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI

초록

대규모 멀티모달 모델(LMM)은 이미지 인코더가 생성하는 방대한 시각 토큰으로 인해 심각한 추론 비효율 문제를 겪는 경우가 많습니다. 토큰 제거(pruning) 및 병합(merging)과 같은 최근의 토큰 압축 기법들은 중복성을 줄이는 데 유망한 성과를 보였지만, 이에 대한 평가는 여전히 파편화되고 일관성이 부족한 실정입니다. 본 연구에서는 멀티모달 LLM의 시각 토큰 제거를 위한 통합적이고 확장 가능한 벤치마크인 UniPruneBench를 제안합니다. UniPruneBench는 6개 능력 차원과 10개 데이터셋에 걸쳐 표준화된 평가 프로토콜을 제공하며, 10가지 대표적인 압축 알고리즘과 3가지 LMM 패밀리(LLaVA-v1.5, Intern-VL3, Qwen2.5-VL)를 포괄합니다. 과제 정확도 외에도 실행 시간 및 프리필링 지연 시간과 같은 시스템 수준의 지표를 포함하여 종합적인 관점을 제시합니다. 실험 결과 몇 가지 중요한 사실을 발견했습니다: (1) 무작위 제거는 놀랍도록 강력한 기준선이며, (2) 단일 방법론이 모든 시나리오에서 일관되게 다른 방법들을 능가하지는 않으며, (3) 제거에 대한 민감도는 과제별로 현저히 다르며 OCR이 가장 취약하고, (4) 제거 비율이 성능 저하를 지배하는 주요 요인입니다. UniPruneBench가 효율적인 멀티모달 모델링 연구를 위한 신뢰할 수 있는 기반이 될 것으로 기대합니다.
English
Large multimodal models (LMMs) often suffer from severe inference inefficiency due to the large number of visual tokens introduced by image encoders. While recent token compression methods, such as pruning and merging, have shown promise in reducing redundancy, their evaluation remains fragmented and inconsistent. In this work, we present UniPruneBench, a unified and extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench provides standardized protocols across six ability dimensions and ten datasets, covering ten representative compression algorithms and three families of LMMs (LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates system-level metrics such as runtime and prefilling latency to provide a holistic view. Our experiments uncover several key findings: (1) random pruning is a surprisingly strong baseline, (2) no single method consistently outperforms others across scenarios, (3) pruning sensitivity varies significantly across tasks, with OCR being most vulnerable, and (4) pruning ratio is the dominant factor governing performance degradation. We believe UniPruneBench will serve as a reliable foundation for future research on efficient multimodal modeling.
PDF91December 2, 2025