ChatPaper.aiChatPaper

Guion: Poda Semántica de Tokens Estructurada en Grafos y Condicionada por Consultas para Modelos de Lenguaje Grandes Multimodales

Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

December 1, 2025
Autores: Zhongyu Yang, Dannong Xu, Wei Pang, Yingfang Yuan
cs.AI

Resumen

El rápido crecimiento de tokens visuales en los modelos de lenguaje grandes multimodales (MLLMs) conduce a un consumo excesivo de memoria y una latencia de inferencia elevada, especialmente al procesar imágenes y videos de alta resolución. La poda de tokens es una técnica utilizada para mitigar este problema eliminando redundancias, pero los métodos existentes a menudo ignoran la relevancia respecto a la consulta del usuario o sufren las limitaciones de los mecanismos de atención, lo que reduce su adaptabilidad y efectividad. Para abordar estos desafíos, proponemos Script, un método de poda plug-and-play que no requiere reentrenamiento y generaliza a través de diversos MLLMs. Script comprende dos módulos: un módulo de poda con estructura de grafo que elimina tokens visuales redundantes, y un módulo de poda semántica condicionado por la consulta que preserva la información visual relevante para la misma. En conjunto, mejoran el rendimiento en tareas multimodales. Los experimentos en catorce benchmarks de tareas de comprensión de imágenes y videos muestran que Script logra consistentemente una mayor eficiencia del modelo y una precisión predictiva superior en comparación con los métodos de poda existentes. En LLaVA-NeXT-7B, alcanza una aceleración de prellenado de hasta 6.8x y una reducción de 10x en las operaciones de punto flotante (FLOPs), manteniendo el 96.88% del rendimiento original.
English
The rapid growth of visual tokens in multimodal large language models (MLLMs) leads to excessive memory consumption and inference latency, especially when handling high-resolution images and videos. Token pruning is a technique used to mitigate this issue by removing redundancy, but existing methods often ignore relevance to the user query or suffer from the limitations of attention mechanisms, reducing their adaptability and effectiveness. To address these challenges, we propose Script, a plug-and-play pruning method that requires no retraining and generalizes across diverse MLLMs. Script comprises two modules: a graph-structured pruning module that removes visually redundant tokens, and a query-conditioned semantic pruning module that preserves query-relevant visual information. Together, they enhance performance on multimodal tasks. Experiments on fourteen benchmarks across image and video understanding tasks show that Script consistently achieves higher model efficiency and predictive accuracy compared to existing pruning methods. On LLaVA-NeXT-7B, it achieves up to 6.8x prefill speedup and 10x FLOP reduction, while retaining 96.88% of the original performance.
PDF61December 3, 2025