ChatPaper.aiChatPaper

Kortsluiting voor categorische VQA met behulp van superneuronen

Taking Shortcuts for Categorical VQA Using Super Neurons

March 11, 2026
Auteurs: Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park
cs.AI

Samenvatting

Sparse Attention Vectors (SAV's) zijn naar voren gekomen als een uitstekend trainingsvrij alternatief voor gesuperviseerd finetunen of low-rank adaptatie om de prestaties van Vision Language Models (VLM's) te verbeteren. In de kern selecteren SAV's enkele nauwkeurige attention heads voor een bepaalde taak en gebruiken deze als classificatoren, in plaats van te vertrouwen op de voorspelling van het model. In dezelfde geest ontdekken wij dat het direct uitlezen van de ruwe activaties van het VLM, in de vorm van scalaire waarden, voldoende is om nauwkeurige classificatoren te verkrijgen voor diverse visueel onderbouwde downstreamtaken. Door de focus te verleggen van attention vectors naar scalaire activaties wordt de zoekruimte voor nauwkeurige parameters aanzienlijk vergroot, waardoor we direct vanaf de eerste gegenereerde token meer onderscheidende neuronen kunnen vinden. Wij noemen dergelijke activaties Super Neurons (SN's). In deze uitlees-setting ontdekken we dat er voldoende SN's verschijnen in de ondiepere lagen van het large language model om een extreme early exit mogelijk te maken, reeds vanaf de eerste laag van het model bij de eerste gegenereerde token. In vergelijking met het oorspronkelijke netwerk verbeteren SN's de classificatieprestatie robuust, terwijl een versnelling tot 5,10x wordt bereikt.
English
Sparse Attention Vectors (SAVs) have emerged as an excellent training-free alternative to supervised finetuning or low-rank adaptation to improve the performance of Vision Language Models (VLMs). At their heart, SAVs select a few accurate attention heads for a task of interest and use them as classifiers, rather than relying on the model's prediction. In a similar spirit, we find that directly probing the raw activations of the VLM, in the form of scalar values, is sufficient to yield accurate classifiers on diverse visually grounded downstream tasks. Shifting focus from attention vectors to scalar activations dramatically increases the search space for accurate parameters, allowing us to find more discriminative neurons immediately from the first generated token. We call such activations Super Neurons (SNs). In this probing setting, we discover that enough SNs appear in the shallower layers of the large language model to allow for extreme early exiting from the first layer of the model at the first generated token. Compared to the original network, SNs robustly improve the classification performance while achieving a speedup of up to 5.10x.
PDF62March 25, 2026