CoreMatching: Совместно адаптируемая структура разреженного вывода с обрезкой токенов и нейронов для комплексного ускорения моделей обработки зрения и языка
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
May 25, 2025
Авторы: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют выдающиеся результаты в разнообразных задачах, однако сталкиваются с высокими затратами на время и память при выполнении выводов. Разреженность токенов помогает смягчить неэффективность их использования, а разреженность нейронов снижает объем высокоразмерных вычислений, предлагая перспективные решения для повышения эффективности. В последнее время эти две парадигмы разреженности развивались в основном параллельно, что способствовало распространению предположения об их независимом функционировании. Однако остается фундаментальный, но недостаточно изученный вопрос: действительно ли они работают изолированно, или существует более глубокая взаимосвязь, которая еще не раскрыта? В данной статье мы проводим первое всестороннее исследование этого вопроса. Введя и проанализировав механизм соответствия между ключевыми нейронами (Core Neurons) и ключевыми токенами (Core Tokens), мы обнаружили, что ключевые нейроны и токены для вывода взаимно влияют и усиливают друг друга. На основе этого понимания мы предлагаем CoreMatching, коадаптивную разреженную структуру для вывода, которая использует синергию между разреженностью токенов и нейронов для повышения эффективности вывода. Благодаря теоретическому анализу и оценкам эффективности мы демонстрируем, что предложенный метод превосходит современные базовые подходы в десяти задачах понимания изображений и на трех аппаратных устройствах. В частности, на NVIDIA Titan Xp он достиг 5-кратного сокращения FLOPs и 10-кратного общего ускорения. Код доступен по адресу https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high
inference costs in time and memory. Token sparsity mitigates inefficiencies in
token usage, while neuron sparsity reduces high-dimensional computations, both
offering promising solutions to enhance efficiency. Recently, these two
sparsity paradigms have evolved largely in parallel, fostering the prevailing
assumption that they function independently. However, a fundamental yet
underexplored question remains: Do they truly operate in isolation, or is there
a deeper underlying interplay that has yet to be uncovered? In this paper, we
conduct the first comprehensive investigation into this question. By
introducing and analyzing the matching mechanism between Core Neurons and Core
Tokens, we found that key neurons and tokens for inference mutually influence
and reinforce each other. Building on this insight, we propose CoreMatching, a
co-adaptive sparse inference framework, which leverages the synergy between
token and neuron sparsity to enhance inference efficiency. Through theoretical
analysis and efficiency evaluations, we demonstrate that the proposed method
surpasses state-of-the-art baselines on ten image understanding tasks and three
hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs
reduction and a 10x overall speedup. Code is released at
https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.Summary
AI-Generated Summary