スクリプト: マルチモーダル大規模言語モデルにおけるグラフ構造化およびクエリ条件付きセマンティックトークンプルーニング
Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
December 1, 2025
著者: Zhongyu Yang, Dannong Xu, Wei Pang, Yingfang Yuan
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)における視覚トークンの急増は、特に高解像度画像や動画を処理する際に、過剰なメモリ消費と推論遅延を引き起こす。トークン剪定は冗長性を除去することでこの問題を緩和する技術であるが、既存手法はユーザークエリとの関連性を無視するか、注意機構の限界に起因する適応性・有効性の低下が課題であった。これらの課題に対処するため、我々は再学習不要で多様なMLLMに汎化するプラグアンドプレイ型剪定手法「Script」を提案する。Scriptは二つのモジュールで構成される:視覚的に冗長なトークンを除去するグラフ構造剪定モジュールと、クエリ関連の視覚情報を保持するクエリ条件付き意味剪定モジュールである。両者が協調してマルチモーダルタスクの性能向上を実現する。画像・動画理解タスクにおける14のベンチマーク実験により、Scriptが既存剪定手法と比較して一貫して高いモデル効率と予測精度を達成することを示す。LLaVA-NeXT-7Bでは、最大6.8倍のプリフィル速度向上と10倍のFLOP削減を達成しつつ、元の性能の96.88%を維持した。
English
The rapid growth of visual tokens in multimodal large language models (MLLMs) leads to excessive memory consumption and inference latency, especially when handling high-resolution images and videos. Token pruning is a technique used to mitigate this issue by removing redundancy, but existing methods often ignore relevance to the user query or suffer from the limitations of attention mechanisms, reducing their adaptability and effectiveness. To address these challenges, we propose Script, a plug-and-play pruning method that requires no retraining and generalizes across diverse MLLMs. Script comprises two modules: a graph-structured pruning module that removes visually redundant tokens, and a query-conditioned semantic pruning module that preserves query-relevant visual information. Together, they enhance performance on multimodal tasks. Experiments on fourteen benchmarks across image and video understanding tasks show that Script consistently achieves higher model efficiency and predictive accuracy compared to existing pruning methods. On LLaVA-NeXT-7B, it achieves up to 6.8x prefill speedup and 10x FLOP reduction, while retaining 96.88% of the original performance.