CoreMatching: Um Framework de Inferência Esparsa Co-adaptativa com Poda de Tokens e Neurônios para Aceleração Abrangente de Modelos Visão-Linguagem
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
May 25, 2025
Autores: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen
cs.AI
Resumo
Modelos Visão-Linguagem (VLMs) se destacam em diversas tarefas, mas sofrem com altos custos de inferência em tempo e memória. A esparsidade de tokens mitiga ineficiências no uso de tokens, enquanto a esparsidade de neurônios reduz computações de alta dimensionalidade, ambas oferecendo soluções promissoras para melhorar a eficiência. Recentemente, esses dois paradigmas de esparsidade evoluíram em grande parte em paralelo, reforçando a suposição predominante de que funcionam de forma independente. No entanto, uma questão fundamental e ainda pouco explorada permanece: Eles realmente operam isoladamente, ou há uma interação subjacente mais profunda que ainda não foi descoberta? Neste artigo, realizamos a primeira investigação abrangente sobre essa questão. Ao introduzir e analisar o mecanismo de correspondência entre Neurônios Centrais e Tokens Centrais, descobrimos que os neurônios e tokens-chave para inferência influenciam e reforçam mutuamente uns aos outros. Com base nessa percepção, propomos o CoreMatching, uma estrutura de inferência esparsa co-adaptativa, que aproveita a sinergia entre a esparsidade de tokens e neurônios para melhorar a eficiência da inferência. Por meio de análise teórica e avaliações de eficiência, demonstramos que o método proposto supera os baselines state-of-the-art em dez tarefas de compreensão de imagem e três dispositivos de hardware. Notavelmente, no NVIDIA Titan Xp, alcançou uma redução de 5x em FLOPs e um aumento de velocidade geral de 10x. O código está disponível em https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
English
Vision-Language Models (VLMs) excel across diverse tasks but suffer from high
inference costs in time and memory. Token sparsity mitigates inefficiencies in
token usage, while neuron sparsity reduces high-dimensional computations, both
offering promising solutions to enhance efficiency. Recently, these two
sparsity paradigms have evolved largely in parallel, fostering the prevailing
assumption that they function independently. However, a fundamental yet
underexplored question remains: Do they truly operate in isolation, or is there
a deeper underlying interplay that has yet to be uncovered? In this paper, we
conduct the first comprehensive investigation into this question. By
introducing and analyzing the matching mechanism between Core Neurons and Core
Tokens, we found that key neurons and tokens for inference mutually influence
and reinforce each other. Building on this insight, we propose CoreMatching, a
co-adaptive sparse inference framework, which leverages the synergy between
token and neuron sparsity to enhance inference efficiency. Through theoretical
analysis and efficiency evaluations, we demonstrate that the proposed method
surpasses state-of-the-art baselines on ten image understanding tasks and three
hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs
reduction and a 10x overall speedup. Code is released at
https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.