AdapterTune: Adaptadores de Baixo Rank Inicializados com Zeros para Transformers de Visão Congelados

Resumo

A transferência com backbone congelado em Vision Transformers enfrenta dois problemas pouco abordados: instabilidade de otimização quando os adaptadores são inseridos de forma ingênua em um extrator de características fixo, e a ausência de orientação fundamentada para definir a capacidade do adaptador. Introduzimos o AdapterTune, que aumenta cada bloco do transformer com um gargalo residual de baixo posto (low-rank) cuja projeção de aumento (up-projection) é inicializada com zeros, garantindo que a rede adaptada comece exatamente na função pré-treinada e elimine o desvio de representação nas épocas iniciais. Do lado analítico, formalizamos o posto do adaptador como um orçamento de capacidade para aproximar as mudanças da tarefa downstream no espaço de características. A decomposição de risco excessivo resultante prevê ganhos de precisão monotônicos, mas decrescentes, com o aumento do posto, um comportamento de "cotovelo" que confirmamos através de varreduras controladas. Avaliamos em 9 conjuntos de dados e 3 escalas de backbone com relatórios multi-seed em todas as análises. Em um conjunto principal de 5 conjuntos de dados para transferência, o AdapterTune melhora a acurácia top-1 em relação à transferência apenas do cabeçalho (head-only) em +14,9 pontos em média, enquanto treina apenas 0,92% dos parâmetros necessários pelo ajuste fino (fine-tuning) completo, e supera o ajuste fino completo em 10 de 15 pares conjunto de dados-backbone. Em todo o benchmark, o AdapterTune supera a transferência apenas do cabeçalho em todos os pares conjunto de dados-backbone testados. Ablações sobre posto, posicionamento e inicialização isolam cada escolha de projeto. O código está disponível em: https://github.com/salimkhazem/adaptertune

English

Frozen-backbone transfer with Vision Transformers faces two under-addressed issues: optimization instability when adapters are naively inserted into a fixed feature extractor, and the absence of principled guidance for setting adapter capacity. We introduce AdapterTune, which augments each transformer block with a residual low-rank bottleneck whose up-projection is zero-initialized, guaranteeing that the adapted network starts exactly at the pretrained function and eliminates early-epoch representation drift. On the analytical side, we formalize adapter rank as a capacity budget for approximating downstream task shifts in feature space. The resulting excess-risk decomposition predicts monotonic but diminishing accuracy gains with increasing rank, an ``elbow'' behavior we confirm through controlled sweeps. We evaluate on 9 datasets and 3 backbone scales with multi-seed reporting throughout. On a core 5 dataset transfer suite, AdapterTune improves top-1 accuracy over head-only transfer by +14.9 points on average while training only 0.92 of the parameters required by full fine-tuning, and outperforms full fine-tuning on 10 of 15 dataset-backbone pairs. Across the full benchmark, AdapterTune improves over head-only transfer on every dataset-backbone pair tested. Ablations on rank, placement, and initialization isolate each design choice. The code is available at: https://github.com/salimkhazem/adaptertune

AdapterTune: Adaptadores de Baixo Rank Inicializados com Zeros para Transformers de Visão Congelados

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Resumo

Support