Utilisation de super-neurones pour des raccourcis dans la VQA catégorielle
Taking Shortcuts for Categorical VQA Using Super Neurons
March 11, 2026
Auteurs: Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park
cs.AI
Résumé
Les vecteurs d'attention parcimonieuse (SAV) sont apparus comme une excellente alternative non supervisée au fine-tuning supervisé ou à l'adaptation bas rang pour améliorer les performances des modèles vision-langage (VLM). Fondamentalement, les SAV sélectionnent quelques têtes d'attention précises pour une tâche donnée et les utilisent comme classifieurs, plutôt que de s'appuyer sur la prédiction du modèle. Dans le même esprit, nous constatons que sonder directement les activations brutes du VLM, sous forme de valeurs scalaires, suffit à produire des classifieurs précis sur diverses tâches en aval ancrées visuellement. Ce déplacement de l'attention des vecteurs vers les activations scalaires augmente considérablement l'espace de recherche de paramètres précis, nous permettant de trouver des neurones plus discriminants dès le premier token généré. Nous appelons ces activations des Super Neurones (SN). Dans ce cadre de sondage, nous découvrons qu'assez de SN apparaissent dans les couches peu profondes du grand modèle de langage pour permettre un arrêt extrêmement précoce dès la première couche du modèle au premier token généré. Par rapport au réseau original, les SN améliorent robustement les performances de classification tout en atteignant une accélération pouvant aller jusqu'à 5,10x.
English
Sparse Attention Vectors (SAVs) have emerged as an excellent training-free alternative to supervised finetuning or low-rank adaptation to improve the performance of Vision Language Models (VLMs). At their heart, SAVs select a few accurate attention heads for a task of interest and use them as classifiers, rather than relying on the model's prediction. In a similar spirit, we find that directly probing the raw activations of the VLM, in the form of scalar values, is sufficient to yield accurate classifiers on diverse visually grounded downstream tasks. Shifting focus from attention vectors to scalar activations dramatically increases the search space for accurate parameters, allowing us to find more discriminative neurons immediately from the first generated token. We call such activations Super Neurons (SNs). In this probing setting, we discover that enough SNs appear in the shallower layers of the large language model to allow for extreme early exiting from the first layer of the model at the first generated token. Compared to the original network, SNs robustly improve the classification performance while achieving a speedup of up to 5.10x.