CoreMatching: Un Marco de Inferencia Escasa Co-adaptativo con Poda de Tokens y Neuronas para la Aceleración Integral de Modelos de Visión-Lenguaje
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
May 25, 2025
Autores: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs) destacan en diversas tareas, pero presentan altos costos de inferencia en tiempo y memoria. La escasez de tokens mitiga las ineficiencias en el uso de tokens, mientras que la escasez de neuronas reduce los cálculos de alta dimensionalidad, ofreciendo ambas soluciones prometedoras para mejorar la eficiencia. Recientemente, estos dos paradigmas de escasez han evolucionado en gran medida en paralelo, fomentando la suposición predominante de que funcionan de manera independiente. Sin embargo, una pregunta fundamental pero poco explorada persiste: ¿Realmente operan de forma aislada, o existe una interacción subyacente más profunda que aún no se ha descubierto? En este artículo, realizamos la primera investigación exhaustiva sobre esta cuestión. Al introducir y analizar el mecanismo de correspondencia entre Neuronas Clave y Tokens Clave, descubrimos que las neuronas y tokens clave para la inferencia se influyen y refuerzan mutuamente. Basándonos en esta idea, proponemos CoreMatching, un marco de inferencia escasa co-adaptativo, que aprovecha la sinergia entre la escasez de tokens y neuronas para mejorar la eficiencia de la inferencia. A través de análisis teóricos y evaluaciones de eficiencia, demostramos que el método propuesto supera a los baselines más avanzados en diez tareas de comprensión de imágenes y tres dispositivos de hardware. Notablemente, en la NVIDIA Titan Xp, logró una reducción de 5x en FLOPs y una aceleración general de 10x. El código está disponible en https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high
inference costs in time and memory. Token sparsity mitigates inefficiencies in
token usage, while neuron sparsity reduces high-dimensional computations, both
offering promising solutions to enhance efficiency. Recently, these two
sparsity paradigms have evolved largely in parallel, fostering the prevailing
assumption that they function independently. However, a fundamental yet
underexplored question remains: Do they truly operate in isolation, or is there
a deeper underlying interplay that has yet to be uncovered? In this paper, we
conduct the first comprehensive investigation into this question. By
introducing and analyzing the matching mechanism between Core Neurons and Core
Tokens, we found that key neurons and tokens for inference mutually influence
and reinforce each other. Building on this insight, we propose CoreMatching, a
co-adaptive sparse inference framework, which leverages the synergy between
token and neuron sparsity to enhance inference efficiency. Through theoretical
analysis and efficiency evaluations, we demonstrate that the proposed method
surpasses state-of-the-art baselines on ten image understanding tasks and three
hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs
reduction and a 10x overall speedup. Code is released at
https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.Summary
AI-Generated Summary