ChatPaper.aiChatPaper

Un vistazo a la compresión: Poda dinámica de tokens visuales para modelos grandes de visión y lenguaje

A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

August 3, 2025
Autores: Quan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou
cs.AI

Resumen

La compresión de tokens visuales es crucial para que los Modelos de Lenguaje y Visión a Gran Escala (LVLMs, por sus siglas en inglés) procesen de manera eficiente entradas de alta resolución. Los métodos existentes, que generalmente adoptan ratios de compresión fijos, no pueden adaptarse a escenas de complejidad variable, lo que a menudo provoca una poda imprecisa que descarta tokens visuales informativos y resulta en un rendimiento degradado del modelo. Para abordar este problema, presentamos un marco de poda dinámica, GlimpsePrune, inspirado en la cognición humana. Este enfoque toma una "mirada" basada en datos y poda los tokens visuales irrelevantes en un solo paso hacia adelante antes de la generación de respuestas. Este método poda el 92.6% de los tokens visuales mientras que, en promedio, retiene completamente el rendimiento de referencia en tareas de preguntas y respuestas de forma libre. El costo computacional reducido también permite un ajuste fino más efectivo: una versión mejorada, GlimpsePrune+, alcanza el 110% del rendimiento de referencia mientras mantiene una tasa de poda igualmente alta. Nuestro trabajo abre un nuevo camino para construir LVLMs más potentes y eficientes.
English
Visual token compression is critical for Large Vision-Language Models (LVLMs) to efficiently process high-resolution inputs. Existing methods that typically adopt fixed compression ratios cannot adapt to scenes of varying complexity, often causing imprecise pruning that discards informative visual tokens and results in degraded model performance. To address this issue, we introduce a dynamic pruning framework, GlimpsePrune, inspired by human cognition. It takes a data-driven ''glimpse'' and prunes irrelevant visual tokens in a single forward pass before answer generation. This approach prunes 92.6% of visual tokens while on average fully retaining the baseline performance on free-form VQA tasks. The reduced computational cost also enables more effective fine-tuning: an enhanced GlimpsePrune+ achieves 110% of the baseline performance while maintaining a similarly high pruning rate. Our work paves a new way for building more powerful and efficient LVLMs.
PDF122August 5, 2025