ChatPaper.aiChatPaper

CoreMatching: Un Framework di Inferenza Sparsa Co-adattivo con Potatura di Token e Neuroni per l'Accelerazione Completa dei Modelli Visione-Linguaggio

CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

May 25, 2025
Autori: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) eccellono in una vasta gamma di compiti, ma soffrono di elevati costi di inferenza in termini di tempo e memoria. La sparsità dei token mitiga le inefficienze nell'uso dei token, mentre la sparsità dei neuroni riduce i calcoli ad alta dimensionalità, offrendo entrambe soluzioni promettenti per migliorare l'efficienza. Recentemente, questi due paradigmi di sparsità si sono evoluti principalmente in parallelo, alimentando l'assunzione prevalente che funzionino in modo indipendente. Tuttavia, rimane una domanda fondamentale ma poco esplorata: operano veramente in isolamento, o esiste un'interazione sottostante più profonda che deve ancora essere scoperta? In questo articolo, conduciamo la prima indagine completa su questa questione. Introducendo e analizzando il meccanismo di corrispondenza tra Neuroni Core e Token Core, abbiamo scoperto che i neuroni e i token chiave per l'inferenza si influenzano e si rafforzano reciprocamente. Basandoci su questa intuizione, proponiamo CoreMatching, un framework di inferenza sparsa co-adattativo, che sfrutta la sinergia tra la sparsità dei token e dei neuroni per migliorare l'efficienza dell'inferenza. Attraverso analisi teoriche e valutazioni di efficienza, dimostriamo che il metodo proposto supera i baseline più avanzati su dieci compiti di comprensione delle immagini e tre dispositivi hardware. In particolare, su NVIDIA Titan Xp, ha ottenuto una riduzione di 5x dei FLOP e un'accelerazione complessiva di 10x. Il codice è rilasciato su https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high inference costs in time and memory. Token sparsity mitigates inefficiencies in token usage, while neuron sparsity reduces high-dimensional computations, both offering promising solutions to enhance efficiency. Recently, these two sparsity paradigms have evolved largely in parallel, fostering the prevailing assumption that they function independently. However, a fundamental yet underexplored question remains: Do they truly operate in isolation, or is there a deeper underlying interplay that has yet to be uncovered? In this paper, we conduct the first comprehensive investigation into this question. By introducing and analyzing the matching mechanism between Core Neurons and Core Tokens, we found that key neurons and tokens for inference mutually influence and reinforce each other. Building on this insight, we propose CoreMatching, a co-adaptive sparse inference framework, which leverages the synergy between token and neuron sparsity to enhance inference efficiency. Through theoretical analysis and efficiency evaluations, we demonstrate that the proposed method surpasses state-of-the-art baselines on ten image understanding tasks and three hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs reduction and a 10x overall speedup. Code is released at https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
PDF21May 28, 2025