CoreMatching: Ein ko-adaptives Framework für sparsame Inferenz mit Token- und Neuron-Pruning zur umfassenden Beschleunigung von Vision-Sprache-Modellen
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
May 25, 2025
Autoren: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI
Zusammenfassung
Vision-Language Models (VLMs) zeichnen sich in vielfältigen Aufgaben aus, leiden jedoch unter hohen Inferenzkosten in Bezug auf Zeit und Speicher. Token-Sparsity mildert Ineffizienzen in der Token-Nutzung, während Neuron-Sparsity hochdimensionale Berechnungen reduziert – beide bieten vielversprechende Lösungen zur Steigerung der Effizienz. In jüngster Zeit haben sich diese beiden Sparsity-Paradigmen weitgehend parallel entwickelt, was die vorherrschende Annahme förderte, dass sie unabhängig voneinander funktionieren. Doch eine grundlegende, jedoch wenig erforschte Frage bleibt: Operieren sie tatsächlich isoliert, oder gibt es eine tieferliegende Wechselwirkung, die noch nicht entdeckt wurde? In diesem Papier führen wir die erste umfassende Untersuchung zu dieser Frage durch. Durch die Einführung und Analyse des Matching-Mechanismus zwischen Core Neurons und Core Tokens fanden wir heraus, dass Schlüsselneuronen und -tokens für die Inferenz sich gegenseitig beeinflussen und verstärken. Aufbauend auf dieser Erkenntnis schlagen wir CoreMatching vor, ein ko-adaptives sparses Inferenz-Framework, das die Synergie zwischen Token- und Neuron-Sparsity nutzt, um die Inferenzeffizienz zu steigern. Durch theoretische Analysen und Effizienzbewertungen zeigen wir, dass die vorgeschlagene Methode state-of-the-art Baselines auf zehn Bildverständnisaufgaben und drei Hardware-Geräten übertrifft. Bemerkenswerterweise erreichte sie auf der NVIDIA Titan Xp eine 5-fache Reduktion der FLOPs und eine 10-fache Gesamtbeschleunigung. Der Code ist unter https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main veröffentlicht.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high
inference costs in time and memory. Token sparsity mitigates inefficiencies in
token usage, while neuron sparsity reduces high-dimensional computations, both
offering promising solutions to enhance efficiency. Recently, these two
sparsity paradigms have evolved largely in parallel, fostering the prevailing
assumption that they function independently. However, a fundamental yet
underexplored question remains: Do they truly operate in isolation, or is there
a deeper underlying interplay that has yet to be uncovered? In this paper, we
conduct the first comprehensive investigation into this question. By
introducing and analyzing the matching mechanism between Core Neurons and Core
Tokens, we found that key neurons and tokens for inference mutually influence
and reinforce each other. Building on this insight, we propose CoreMatching, a
co-adaptive sparse inference framework, which leverages the synergy between
token and neuron sparsity to enhance inference efficiency. Through theoretical
analysis and efficiency evaluations, we demonstrate that the proposed method
surpasses state-of-the-art baselines on ten image understanding tasks and three
hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs
reduction and a 10x overall speedup. Code is released at
https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.Summary
AI-Generated Summary