AdapterTune: Adattatori a Basso Rango con Inizializzazione Zero per Vision Transformer Congelati

Abstract

Il transfer learning con backbone congelata tramite Vision Transformers affronta due problemi poco considerati: l'instabilità ottimizzativa quando gli adapter vengono inseriti in modo ingenuo in un estrattore di feature fisso e l'assenza di linee guida principiate per impostare la capacità degli adapter. Introduciamo AdapterTune, che potenzia ogni blocco transformer con un collo di bottiglia residuo a basso rango la cui proiezione ascendente è inizializzata a zero, garantendo che la rete adattata parta esattamente dalla funzione pre-addestrata ed elimini la deriva delle rappresentazioni nelle epoche iniziali. Sul lato analitico, formalizziamo il rango dell'adapter come un budget di capacità per approssimare gli spostamenti del task downstream nello spazio delle feature. La conseguente scomposizione dell'eccesso di rischio prevede guadagni di accuratezza monotoni ma decrescenti all'aumentare del rango, un comportamento "a gomito" che conferiamo attraverso sweep controllati. Valutiamo su 9 dataset e 3 scale di backbone con report multi-seed completo. Su una suite di transfer di 5 dataset principali, AdapterTune migliora l'accuratezza top-1 rispetto al transfer solo testa di +14,9 punti in media, addestrando solo lo 0,92% dei parametri richiesti dal fine-tuning completo, e supera il fine-tuning completo in 10 su 15 coppie dataset-backbone. Nell'intero benchmark, AdapterTune migliora rispetto al transfer solo testa in ogni coppia dataset-backbone testata. Le ablazioni su rango, posizionamento e inizializzazione isolano ogni scelta progettuale. Il codice è disponibile all'indirizzo: https://github.com/salimkhazem/adaptertune

English

Frozen-backbone transfer with Vision Transformers faces two under-addressed issues: optimization instability when adapters are naively inserted into a fixed feature extractor, and the absence of principled guidance for setting adapter capacity. We introduce AdapterTune, which augments each transformer block with a residual low-rank bottleneck whose up-projection is zero-initialized, guaranteeing that the adapted network starts exactly at the pretrained function and eliminates early-epoch representation drift. On the analytical side, we formalize adapter rank as a capacity budget for approximating downstream task shifts in feature space. The resulting excess-risk decomposition predicts monotonic but diminishing accuracy gains with increasing rank, an ``elbow'' behavior we confirm through controlled sweeps. We evaluate on 9 datasets and 3 backbone scales with multi-seed reporting throughout. On a core 5 dataset transfer suite, AdapterTune improves top-1 accuracy over head-only transfer by +14.9 points on average while training only 0.92 of the parameters required by full fine-tuning, and outperforms full fine-tuning on 10 of 15 dataset-backbone pairs. Across the full benchmark, AdapterTune improves over head-only transfer on every dataset-backbone pair tested. Ablations on rank, placement, and initialization isolate each design choice. The code is available at: https://github.com/salimkhazem/adaptertune

AdapterTune: Adattatori a Basso Rango con Inizializzazione Zero per Vision Transformer Congelati

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Abstract

Support