CoreMatching:トークンとニューロンのプルーニングを統合した共適応型スパース推論フレームワークによる視覚-言語モデルの包括的加速
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
May 25, 2025
著者: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI
要旨
ビジョン・ランゲージモデル(VLMs)は多様なタスクで優れた性能を発揮するが、推論時の時間とメモリのコストが高いという課題を抱えている。トークンのスパース性はトークン使用の非効率性を緩和し、ニューロンのスパース性は高次元計算を削減することで、効率性向上の有望な解決策を提供する。これまで、これら二つのスパース性のパラダイムは並行して進化し、互いに独立して機能するという一般的な仮説が支持されてきた。しかし、根本的でありながら未解明の疑問が残されている:これらは本当に孤立して動作するのか、それともまだ明らかにされていない深い相互作用が存在するのか?本論文では、この疑問に対する初めての包括的な調査を行った。コアニューロンとコアトークンの間のマッチングメカニズムを導入し分析することで、推論における重要なニューロンとトークンが相互に影響を与え、強化し合うことを発見した。この知見に基づき、トークンとニューロンのスパース性の相乗効果を活用して推論効率を向上させる共適応型スパース推論フレームワーク「CoreMatching」を提案する。理論分析と効率評価を通じて、提案手法が10の画像理解タスクと3つのハードウェアデバイスにおいて最先端のベースラインを上回ることを実証した。特に、NVIDIA Titan Xpでは、FLOPsを5倍削減し、全体の速度を10倍向上させた。コードはhttps://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/mainで公開されている。
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high
inference costs in time and memory. Token sparsity mitigates inefficiencies in
token usage, while neuron sparsity reduces high-dimensional computations, both
offering promising solutions to enhance efficiency. Recently, these two
sparsity paradigms have evolved largely in parallel, fostering the prevailing
assumption that they function independently. However, a fundamental yet
underexplored question remains: Do they truly operate in isolation, or is there
a deeper underlying interplay that has yet to be uncovered? In this paper, we
conduct the first comprehensive investigation into this question. By
introducing and analyzing the matching mechanism between Core Neurons and Core
Tokens, we found that key neurons and tokens for inference mutually influence
and reinforce each other. Building on this insight, we propose CoreMatching, a
co-adaptive sparse inference framework, which leverages the synergy between
token and neuron sparsity to enhance inference efficiency. Through theoretical
analysis and efficiency evaluations, we demonstrate that the proposed method
surpasses state-of-the-art baselines on ten image understanding tasks and three
hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs
reduction and a 10x overall speedup. Code is released at
https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.Summary
AI-Generated Summary