AdapterTune: Nul-geïnitialiseerde Laag-Rang Adapters voor Bevroren Vision Transformers

Samenvatting

Frozen-backbone transfer met Vision Transformers kampt met twee onderbelichte problemen: optimalisatie-instabiliteit wanneer adapters op eenvoudige wijze in een vaste feature-extractor worden geplaatst, en het ontbreken van principiële richtlijnen voor het instellen van de adaptercapaciteit. Wij introduceren AdapterTune, dat elk transformerblok uitbreidt met een residuale low-rank bottleneck waarvan de up-projectie nul-geïnitialiseerd is. Dit garandeert dat het aangepaste netwerk exact start bij de voorgetrainde functie en elimineert representatiedrift in vroege trainingsepochs. Analytisch gezien formaliseren we de adapterrang als een capaciteitsbudget voor het benaderen van downstream-taakverschuivingen in de feature-ruimte. De resulterende excess-risk decompositie voorspelt monotone maar afnemende nauwkeurigheidswinst bij toenemende rang, een "elleboog"-gedrag dat we bevestigen via gecontroleerde experimenten. We evalueren op 9 datasets en 3 backbone-schalen met multi-seed rapportage. Op een kernset van 5 datasets verbetert AdapterTune de top-1 nauwkeurigheid ten opzichte van head-only transfer met gemiddeld +14,9 procentpunt, terwijl slechts 0,92% van de parameters van volledige fine-tuning getraind wordt, en presteert het beter dan volledige fine-tuning bij 10 van de 15 dataset-backbone combinaties. Over de volledige benchmark heen verbetert AdapterTune de prestaties ten opzichte van head-only transfer bij elke geteste dataset-backbone combinatie. Ablatiestudies naar rang, plaatsing en initialisatie isoleren elke ontwerpkeuze. De code is beschikbaar op: https://github.com/salimkhazem/adaptertune

English

Frozen-backbone transfer with Vision Transformers faces two under-addressed issues: optimization instability when adapters are naively inserted into a fixed feature extractor, and the absence of principled guidance for setting adapter capacity. We introduce AdapterTune, which augments each transformer block with a residual low-rank bottleneck whose up-projection is zero-initialized, guaranteeing that the adapted network starts exactly at the pretrained function and eliminates early-epoch representation drift. On the analytical side, we formalize adapter rank as a capacity budget for approximating downstream task shifts in feature space. The resulting excess-risk decomposition predicts monotonic but diminishing accuracy gains with increasing rank, an ``elbow'' behavior we confirm through controlled sweeps. We evaluate on 9 datasets and 3 backbone scales with multi-seed reporting throughout. On a core 5 dataset transfer suite, AdapterTune improves top-1 accuracy over head-only transfer by +14.9 points on average while training only 0.92 of the parameters required by full fine-tuning, and outperforms full fine-tuning on 10 of 15 dataset-backbone pairs. Across the full benchmark, AdapterTune improves over head-only transfer on every dataset-backbone pair tested. Ablations on rank, placement, and initialization isolate each design choice. The code is available at: https://github.com/salimkhazem/adaptertune

AdapterTune: Nul-geïnitialiseerde Laag-Rang Adapters voor Bevroren Vision Transformers

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Samenvatting

Support