CoreMatching: 토큰 및 뉴런 프루닝을 통한 공동 적응형 희소 추론 프레임워크를 활용한 비전-언어 모델의 포괄적 가속화
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
May 25, 2025
저자: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI
초록
비전-언어 모델(VLMs)은 다양한 작업에서 뛰어난 성능을 보이지만, 추론 과정에서 시간과 메모리 측면에서 높은 비용이 발생한다. 토큰 희소성은 토큰 사용의 비효율성을 완화하고, 뉴런 희소성은 고차원 계산을 줄여 효율성을 향상시키는 유망한 해결책을 제공한다. 최근 이 두 가지 희소성 패러다임은 주로 병렬적으로 발전해 왔으며, 이들이 독립적으로 기능한다는 일반적인 가정을 강화해 왔다. 그러나 근본적이면서도 충분히 탐구되지 않은 질문이 남아 있다: 이들은 정말로 독립적으로 작동하는가, 아니면 아직 밝혀지지 않은 더 깊은 상호작용이 존재하는가? 본 논문에서는 이 질문에 대한 첫 번째 포괄적인 조사를 수행한다. 코어 뉴런과 코어 토큰 간의 매칭 메커니즘을 도입하고 분석함으로써, 추론에 있어 핵심적인 뉴런과 토큰이 서로 영향을 주고 강화한다는 사실을 발견했다. 이러한 통찰을 바탕으로, 토큰과 뉴런 희소성 간의 시너지를 활용하여 추론 효율성을 향상시키는 공동 적응형 희소 추론 프레임워크인 CoreMatching을 제안한다. 이론적 분석과 효율성 평가를 통해 제안된 방법이 10개의 이미지 이해 작업과 3개의 하드웨어 장치에서 최신 기준선을 능가함을 입증했다. 특히, NVIDIA Titan Xp에서 5배의 FLOPs 감소와 10배의 전반적인 속도 향상을 달성했다. 코드는 https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main에서 공개되었다.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high
inference costs in time and memory. Token sparsity mitigates inefficiencies in
token usage, while neuron sparsity reduces high-dimensional computations, both
offering promising solutions to enhance efficiency. Recently, these two
sparsity paradigms have evolved largely in parallel, fostering the prevailing
assumption that they function independently. However, a fundamental yet
underexplored question remains: Do they truly operate in isolation, or is there
a deeper underlying interplay that has yet to be uncovered? In this paper, we
conduct the first comprehensive investigation into this question. By
introducing and analyzing the matching mechanism between Core Neurons and Core
Tokens, we found that key neurons and tokens for inference mutually influence
and reinforce each other. Building on this insight, we propose CoreMatching, a
co-adaptive sparse inference framework, which leverages the synergy between
token and neuron sparsity to enhance inference efficiency. Through theoretical
analysis and efficiency evaluations, we demonstrate that the proposed method
surpasses state-of-the-art baselines on ten image understanding tasks and three
hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs
reduction and a 10x overall speedup. Code is released at
https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.Summary
AI-Generated Summary