Abkürzungen für kategorisches VQA mittels Super-Neuronen
Taking Shortcuts for Categorical VQA Using Super Neurons
March 11, 2026
Autoren: Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park
cs.AI
Zusammenfassung
Sparse Attention Vectors (SAVs) haben sich als hervorragende, trainingsfreie Alternative zum überwachten Finetuning oder zur Low-Rank-Adaption erwiesen, um die Leistung von Vision-Language-Models (VLMs) zu verbessern. Im Kern wählen SAVs einige präzise Attention-Heads für eine bestimmte Aufgabe aus und nutzen diese als Klassifikatoren, anstatt sich auf die Vorhersage des Modells zu verlassen. In ähnlicher Weise stellen wir fest, dass das direkte Auslesen der rohen Aktivierungen des VLM in Form von Skalarwerten ausreicht, um genaue Klassifikatoren für verschiedene visuell fundierte Downstream-Aufgaben zu erhalten. Die Verlagerung des Fokus von Attention-Vektoren auf skalare Aktivierungen vergrößert den Suchraum für präzise Parameter dramatisch, was es uns ermöglicht, bereits ab dem ersten generierten Token diskriminativere Neuronen zu finden. Wir bezeichnen solche Aktivierungen als Super Neurons (SNs). In diesem Auslese-Setting entdecken wir, dass in den flacheren Schichten des Large Language Models genügend SNs auftreten, um ein extremes Early-Exiting bereits ab der ersten Modellschicht beim ersten generierten Token zu ermöglichen. Im Vergleich zum ursprünglichen Netzwerk verbessern SNs die Klassifikationsleistung robust und erreichen gleichzeitig eine Beschleunigung von bis zu 5,10x.
English
Sparse Attention Vectors (SAVs) have emerged as an excellent training-free alternative to supervised finetuning or low-rank adaptation to improve the performance of Vision Language Models (VLMs). At their heart, SAVs select a few accurate attention heads for a task of interest and use them as classifiers, rather than relying on the model's prediction. In a similar spirit, we find that directly probing the raw activations of the VLM, in the form of scalar values, is sufficient to yield accurate classifiers on diverse visually grounded downstream tasks. Shifting focus from attention vectors to scalar activations dramatically increases the search space for accurate parameters, allowing us to find more discriminative neurons immediately from the first generated token. We call such activations Super Neurons (SNs). In this probing setting, we discover that enough SNs appear in the shallower layers of the large language model to allow for extreme early exiting from the first layer of the model at the first generated token. Compared to the original network, SNs robustly improve the classification performance while achieving a speedup of up to 5.10x.