Atalhos para VQA Categórico Usando Super Neurônios

Resumo

Os Vetores de Atenção Esparsa (SAVs) emergiram como uma excelente alternativa livre de treinamento à adaptação supervisionada por fine-tuning ou de baixo rank para melhorar o desempenho de Modelos de Linguagem de Visão (VLMs). Em sua essência, os SAVs selecionam alguns cabeçalhos de atenção precisos para uma tarefa de interesse e os usam como classificadores, em vez de confiar na previsão do modelo. Em um espírito similar, descobrimos que sondar diretamente as ativações brutas do VLM, na forma de valores escalares, é suficiente para produzir classificadores precisos em diversas tarefas downstream visualmente fundamentadas. Mudar o foco dos vetores de atenção para as ativações escalares aumenta drasticamente o espaço de busca por parâmetros precisos, permitindo-nos encontrar neurônios mais discriminativos imediatamente a partir do primeiro token gerado. Chamamos essas ativações de Super Neurônios (SNs). Neste cenário de sondagem, descobrimos que SNs suficientes aparecem nas camadas mais superficiais do grande modelo de linguagem para permitir uma saída extrema antecipada, a partir da primeira camada do modelo no primeiro token gerado. Em comparação com a rede original, os SNs melhoram robustamente o desempenho de classificação enquanto alcançam uma aceleração de até 5,10x.

English

Sparse Attention Vectors (SAVs) have emerged as an excellent training-free alternative to supervised finetuning or low-rank adaptation to improve the performance of Vision Language Models (VLMs). At their heart, SAVs select a few accurate attention heads for a task of interest and use them as classifiers, rather than relying on the model's prediction. In a similar spirit, we find that directly probing the raw activations of the VLM, in the form of scalar values, is sufficient to yield accurate classifiers on diverse visually grounded downstream tasks. Shifting focus from attention vectors to scalar activations dramatically increases the search space for accurate parameters, allowing us to find more discriminative neurons immediately from the first generated token. We call such activations Super Neurons (SNs). In this probing setting, we discover that enough SNs appear in the shallower layers of the large language model to allow for extreme early exiting from the first layer of the model at the first generated token. Compared to the original network, SNs robustly improve the classification performance while achieving a speedup of up to 5.10x.

Atalhos para VQA Categórico Usando Super Neurônios

Taking Shortcuts for Categorical VQA Using Super Neurons

Resumo

Support