Skript: Graphstrukturierte und abfragebedingte semantische Token-Auslese für multimodale große Sprachmodelle
Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
December 1, 2025
papers.authors: Zhongyu Yang, Dannong Xu, Wei Pang, Yingfang Yuan
cs.AI
papers.abstract
Das schnelle Wachstum visueller Tokens in multimodalen großen Sprachmodellen (MLLMs) führt zu übermäßigem Speicherverbrauch und Latenzzeiten bei der Inferenz, insbesondere bei der Verarbeitung hochauflösender Bilder und Videos. Token-Pruning ist eine Technik zur Reduzierung dieses Problems durch Entfernen von Redundanzen, bestehende Methoden ignorieren jedoch oft die Relevanz für die Nutzeranfrage oder leiden unter den Einschränkungen von Aufmerksamkeitsmechanismen, was ihre Anpassungsfähigkeit und Effektivität mindert. Um diese Herausforderungen zu bewältigen, schlagen wir Script vor, eine Plug-and-Play-Pruning-Methode, die keine Neutrainierung erfordert und sich über verschiedene MLLMs verallgemeinern lässt. Script besteht aus zwei Modulen: einem graphstrukturierten Pruning-Modul, das visuell redundante Tokens entfernt, und einem abfragebedingten semantischen Pruning-Modul, das abfragerelevante visuelle Informationen bewahrt. Zusammen verbessern sie die Leistung bei multimodalen Aufgaben. Experimente auf vierzehn Benchmarks für Bild- und Videoanalyseaufgaben zeigen, dass Script durchgängig höhere Modell effizienz und prädiktive Genauigkeit im Vergleich zu bestehenden Pruning-Methoden erzielt. Auf LLaVA-NeXT-7B erreicht es bis zu 6,8-fache Prefill-Beschleunigung und 10-fache FLOP-Reduktion bei gleichzeitiger Beibehaltung von 96,88 % der ursprünglichen Leistung.
English
The rapid growth of visual tokens in multimodal large language models (MLLMs) leads to excessive memory consumption and inference latency, especially when handling high-resolution images and videos. Token pruning is a technique used to mitigate this issue by removing redundancy, but existing methods often ignore relevance to the user query or suffer from the limitations of attention mechanisms, reducing their adaptability and effectiveness. To address these challenges, we propose Script, a plug-and-play pruning method that requires no retraining and generalizes across diverse MLLMs. Script comprises two modules: a graph-structured pruning module that removes visually redundant tokens, and a query-conditioned semantic pruning module that preserves query-relevant visual information. Together, they enhance performance on multimodal tasks. Experiments on fourteen benchmarks across image and video understanding tasks show that Script consistently achieves higher model efficiency and predictive accuracy compared to existing pruning methods. On LLaVA-NeXT-7B, it achieves up to 6.8x prefill speedup and 10x FLOP reduction, while retaining 96.88% of the original performance.