ChatPaper.aiChatPaper

CoreMatching : Un cadre d'inférence parcimonieuse co-adaptatif avec élagage de tokens et de neurones pour une accélération complète des modèles vision-langage

CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

May 25, 2025
Auteurs: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI

Résumé

Les modèles vision-langage (VLMs) excellent dans une variété de tâches, mais souffrent de coûts d'inférence élevés en termes de temps et de mémoire. La parcimonie des tokens atténue les inefficacités dans l'utilisation des tokens, tandis que la parcimonie des neurones réduit les calculs en haute dimension, offrant ainsi des solutions prometteuses pour améliorer l'efficacité. Récemment, ces deux paradigmes de parcimonie ont évolué largement en parallèle, renforçant l'hypothèse dominante qu'ils fonctionnent de manière indépendante. Cependant, une question fondamentale mais peu explorée demeure : fonctionnent-ils vraiment de manière isolée, ou existe-t-il une interaction sous-jacente plus profonde qui reste à découvrir ? Dans cet article, nous menons la première investigation approfondie sur cette question. En introduisant et en analysant le mécanisme de correspondance entre les Neurones Cores et les Tokens Cores, nous avons découvert que les neurones et les tokens clés pour l'inférence s'influencent et se renforcent mutuellement. Sur la base de cette observation, nous proposons CoreMatching, un cadre d'inférence parcimonieux co-adaptatif, qui exploite la synergie entre la parcimonie des tokens et des neurones pour améliorer l'efficacité de l'inférence. Grâce à une analyse théorique et des évaluations d'efficacité, nous démontrons que la méthode proposée surpasse les meilleures approches de référence sur dix tâches de compréhension d'images et trois dispositifs matériels. Notamment, sur le NVIDIA Titan Xp, elle a permis une réduction de 5x des FLOPs et une accélération globale de 10x. Le code est disponible à l'adresse suivante : https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high inference costs in time and memory. Token sparsity mitigates inefficiencies in token usage, while neuron sparsity reduces high-dimensional computations, both offering promising solutions to enhance efficiency. Recently, these two sparsity paradigms have evolved largely in parallel, fostering the prevailing assumption that they function independently. However, a fundamental yet underexplored question remains: Do they truly operate in isolation, or is there a deeper underlying interplay that has yet to be uncovered? In this paper, we conduct the first comprehensive investigation into this question. By introducing and analyzing the matching mechanism between Core Neurons and Core Tokens, we found that key neurons and tokens for inference mutually influence and reinforce each other. Building on this insight, we propose CoreMatching, a co-adaptive sparse inference framework, which leverages the synergy between token and neuron sparsity to enhance inference efficiency. Through theoretical analysis and efficiency evaluations, we demonstrate that the proposed method surpasses state-of-the-art baselines on ten image understanding tasks and three hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs reduction and a 10x overall speedup. Code is released at https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.

Summary

AI-Generated Summary

PDF11May 28, 2025