CoreMatching: Een Co-adaptief Sparse Inferentie Framework met Token- en Neuronpruning voor Uitgebreide Versnelling van Vision-Taalmodellen

Samenvatting

Vision-Language Models (VLMs) blinken uit in diverse taken, maar kampen met hoge inferentiekosten in tijd en geheugen. Token-sparsity vermindert inefficiënties in tokengebruik, terwijl neuron-sparsity hoogdimensionale berekeningen reduceert, beide bieden veelbelovende oplossingen om de efficiëntie te verbeteren. Recentelijk zijn deze twee sparsity-paradigma's grotendeels parallel geëvolueerd, wat de heersende aanname voedt dat ze onafhankelijk functioneren. Echter, een fundamentele maar onderbelichte vraag blijft: Opereren ze daadwerkelijk in isolatie, of is er een dieper onderliggend samenspel dat nog moet worden ontdekt? In dit artikel voeren we het eerste uitgebreide onderzoek naar deze vraag uit. Door het introduceren en analyseren van het matchingmechanisme tussen Core Neurons en Core Tokens, ontdekten we dat sleutelneuronen en -tokens voor inferentie elkaar wederzijds beïnvloeden en versterken. Op basis van dit inzicht stellen we CoreMatching voor, een co-adaptief sparse inferentiekader, dat gebruikmaakt van de synergie tussen token- en neuron-sparsity om de inferentie-efficiëntie te verbeteren. Door theoretische analyse en efficiëntie-evaluaties tonen we aan dat de voorgestelde methode state-of-the-art-baselines overtreft op tien beeldbegriptaken en drie hardwareapparaten. Opvallend is dat op de NVIDIA Titan Xp een reductie van 5x FLOPs en een algehele versnelling van 10x werd bereikt. De code is vrijgegeven op https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.

English

Vision-Language Models (VLMs) excel across diverse tasks but suffer from high inference costs in time and memory. Token sparsity mitigates inefficiencies in token usage, while neuron sparsity reduces high-dimensional computations, both offering promising solutions to enhance efficiency. Recently, these two sparsity paradigms have evolved largely in parallel, fostering the prevailing assumption that they function independently. However, a fundamental yet underexplored question remains: Do they truly operate in isolation, or is there a deeper underlying interplay that has yet to be uncovered? In this paper, we conduct the first comprehensive investigation into this question. By introducing and analyzing the matching mechanism between Core Neurons and Core Tokens, we found that key neurons and tokens for inference mutually influence and reinforce each other. Building on this insight, we propose CoreMatching, a co-adaptive sparse inference framework, which leverages the synergy between token and neuron sparsity to enhance inference efficiency. Through theoretical analysis and efficiency evaluations, we demonstrate that the proposed method surpasses state-of-the-art baselines on ten image understanding tasks and three hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs reduction and a 10x overall speedup. Code is released at https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.

CoreMatching: Een Co-adaptief Sparse Inferentie Framework met Token- en Neuronpruning voor Uitgebreide Versnelling van Vision-Taalmodellen

CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

Samenvatting

Support