CoreMatching : Un cadre d'inférence parcimonieuse co-adaptatif avec élagage de tokens et de neurones pour une accélération complète des modèles vision-langage
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
May 25, 2025
Auteurs: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI
Résumé
Les modèles vision-langage (VLMs) excellent dans une variété de tâches, mais souffrent de coûts d'inférence élevés en termes de temps et de mémoire. La parcimonie des tokens atténue les inefficacités dans l'utilisation des tokens, tandis que la parcimonie des neurones réduit les calculs en haute dimension, offrant ainsi des solutions prometteuses pour améliorer l'efficacité. Récemment, ces deux paradigmes de parcimonie ont évolué largement en parallèle, renforçant l'hypothèse dominante qu'ils fonctionnent de manière indépendante. Cependant, une question fondamentale mais peu explorée demeure : fonctionnent-ils vraiment de manière isolée, ou existe-t-il une interaction sous-jacente plus profonde qui reste à découvrir ? Dans cet article, nous menons la première investigation approfondie sur cette question. En introduisant et en analysant le mécanisme de correspondance entre les Neurones Cores et les Tokens Cores, nous avons découvert que les neurones et les tokens clés pour l'inférence s'influencent et se renforcent mutuellement. Sur la base de cette observation, nous proposons CoreMatching, un cadre d'inférence parcimonieux co-adaptatif, qui exploite la synergie entre la parcimonie des tokens et des neurones pour améliorer l'efficacité de l'inférence. Grâce à une analyse théorique et des évaluations d'efficacité, nous démontrons que la méthode proposée surpasse les meilleures approches de référence sur dix tâches de compréhension d'images et trois dispositifs matériels. Notamment, sur le NVIDIA Titan Xp, elle a permis une réduction de 5x des FLOPs et une accélération globale de 10x. Le code est disponible à l'adresse suivante : https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high
inference costs in time and memory. Token sparsity mitigates inefficiencies in
token usage, while neuron sparsity reduces high-dimensional computations, both
offering promising solutions to enhance efficiency. Recently, these two
sparsity paradigms have evolved largely in parallel, fostering the prevailing
assumption that they function independently. However, a fundamental yet
underexplored question remains: Do they truly operate in isolation, or is there
a deeper underlying interplay that has yet to be uncovered? In this paper, we
conduct the first comprehensive investigation into this question. By
introducing and analyzing the matching mechanism between Core Neurons and Core
Tokens, we found that key neurons and tokens for inference mutually influence
and reinforce each other. Building on this insight, we propose CoreMatching, a
co-adaptive sparse inference framework, which leverages the synergy between
token and neuron sparsity to enhance inference efficiency. Through theoretical
analysis and efficiency evaluations, we demonstrate that the proposed method
surpasses state-of-the-art baselines on ten image understanding tasks and three
hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs
reduction and a 10x overall speedup. Code is released at
https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.Summary
AI-Generated Summary