ChatPaper.aiChatPaper

다중모드 대규모 언어 모델을 위한 그래프 구조 및 쿼리 조건 기반 의미론적 토큰 프루닝

Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

December 1, 2025
저자: Zhongyu Yang, Dannong Xu, Wei Pang, Yingfang Yuan
cs.AI

초록

다중모드 대규모 언어 모델(MLLM)에서 시각 토큰의 급속한 증가는 특히 고해상도 이미지와 비디오를 처리할 때 과도한 메모리 소비 및 추론 지연을 초래합니다. 토큰 프루닝은 중복성을 제거하여 이 문제를 완화하기 위한 기술이지만, 기존 방법들은 사용자 쿼리와의 관련성을 종종 무시하거나 어텐션 메커니즘의 한계로 인해 적응성과 효과성이 떨어지는 문제가 있습니다. 이러한 문제를 해결하기 위해 우리는 재학습이 필요 없으며 다양한 MLLM에 걸쳐 일반화 가능한 플러그인 플레이 프루닝 방법인 Script를 제안합니다. Script는 두 가지 모듈로 구성됩니다: 시각적으로 중복된 토큰을 제거하는 그래프 구조 프루닝 모듈과 쿼리 관련 시각 정보를 보존하는 쿼리 조건부 의미론적 프루닝 모듈입니다. 이들은 함께 다중모드 작업의 성능을 향상시킵니다. 이미지 및 비디오 이해 작업에 대한 14개 벤치마크 실험에서 Script는 기존 프루닝 방법 대비 consistently 더 높은 모델 효율성과 예측 정확도를 달성했습니다. LLaVA-NeXT-7B에서 최대 6.8배의 프리필 속도 향상과 10배의 FLOP 감소를 달성하면서 원본 성능의 96.88%를 유지했습니다.
English
The rapid growth of visual tokens in multimodal large language models (MLLMs) leads to excessive memory consumption and inference latency, especially when handling high-resolution images and videos. Token pruning is a technique used to mitigate this issue by removing redundancy, but existing methods often ignore relevance to the user query or suffer from the limitations of attention mechanisms, reducing their adaptability and effectiveness. To address these challenges, we propose Script, a plug-and-play pruning method that requires no retraining and generalizes across diverse MLLMs. Script comprises two modules: a graph-structured pruning module that removes visually redundant tokens, and a query-conditioned semantic pruning module that preserves query-relevant visual information. Together, they enhance performance on multimodal tasks. Experiments on fourteen benchmarks across image and video understanding tasks show that Script consistently achieves higher model efficiency and predictive accuracy compared to existing pruning methods. On LLaVA-NeXT-7B, it achieves up to 6.8x prefill speedup and 10x FLOP reduction, while retaining 96.88% of the original performance.
PDF61December 3, 2025