ChatPaper.aiChatPaper

Script: Potatura Semantica dei Token Strutturata a Grafo e Condizionata da Query per Modelli Linguistici Multimodali di Grandi Dimensioni

Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

December 1, 2025
Autori: Zhongyu Yang, Dannong Xu, Wei Pang, Yingfang Yuan
cs.AI

Abstract

La rapida crescita dei token visivi nei modelli linguistici multimodali di grandi dimensioni (MLLM) comporta un consumo eccessivo di memoria e una latenza di inferenza elevata, specialmente durante l'elaborazione di immagini e video ad alta risoluzione. La potatura dei token è una tecnica utilizzata per mitigare questo problema rimuovendo la ridondanza, ma i metodi esistenti spesso ignorano la rilevanza rispetto alla query dell'utente o soffrono delle limitazioni dei meccanismi di attenzione, riducendo la loro adattabilità ed efficacia. Per affrontare queste sfide, proponiamo Script, un metodo di potatura plug-and-play che non richiede riaddestramento e si generalizza su diversi MLLM. Script comprende due moduli: un modulo di potatura a struttura grafica che rimuove i token visivi ridondanti e un modulo di potatura semantica condizionato dalla query che preserva le informazioni visive rilevanti per la query. Insieme, essi migliorano le prestazioni sui compiti multimodali. Esperimenti su quattordici benchmark relativi a compiti di comprensione di immagini e video mostrano che Script raggiunge costantemente un'efficienza del modello e un'accuratezza predittiva superiori rispetto ai metodi di potatura esistenti. Su LLaVA-NeXT-7B, raggiunge un accelerazione nella fase di prefill fino a 6,8x e una riduzione dei FLOP di 10x, mantenendo il 96,88% delle prestazioni originali.
English
The rapid growth of visual tokens in multimodal large language models (MLLMs) leads to excessive memory consumption and inference latency, especially when handling high-resolution images and videos. Token pruning is a technique used to mitigate this issue by removing redundancy, but existing methods often ignore relevance to the user query or suffer from the limitations of attention mechanisms, reducing their adaptability and effectiveness. To address these challenges, we propose Script, a plug-and-play pruning method that requires no retraining and generalizes across diverse MLLMs. Script comprises two modules: a graph-structured pruning module that removes visually redundant tokens, and a query-conditioned semantic pruning module that preserves query-relevant visual information. Together, they enhance performance on multimodal tasks. Experiments on fourteen benchmarks across image and video understanding tasks show that Script consistently achieves higher model efficiency and predictive accuracy compared to existing pruning methods. On LLaVA-NeXT-7B, it achieves up to 6.8x prefill speedup and 10x FLOP reduction, while retaining 96.88% of the original performance.
PDF61December 3, 2025