AdapterTune: Null-initialisierte Low-Rank-Adapter für eingefrorene Vision-Transformer

Zusammenfassung

Frozen-Backbone-Transfer mit Vision Transformern steht vor zwei kaum beachteten Problemen: Optimierungsinstabilität bei naiver Einfügung von Adaptern in einen festen Merkmalsextraktor und das Fehlen prinzipieller Leitlinien zur Bestimmung der Adapterkapazität. Wir stellen AdapterTune vor, das jeden Transformer-Block um einen residualen Low-Rank-Flaschenhals erweitert, dessen Up-Projektion nullinitialisiert ist. Dies gewährleistet, dass das adaptierte Netzwerk exakt bei der vortrainierten Funktion startet und Frühphasen-Repräsentationsdrift eliminiert. Analytisch formalisieren wir den Adapter-Rang als Kapazitätsbudget zur Approximation von Taskshifts im Merkmalsraum. Die resultierende Excess-Risk-Zerlegung sagt monotone, aber abnehmende Genauigkeitsgewinne mit steigendem Rang voraus – ein „Elbow“-Verhalten, das wir durch kontrollierte Sweeps bestätigen. Wir evaluieren auf 9 Datensätzen und 3 Backbone-Größen mit durchgängiger Mehrfach-Seed-Berichterstattung. Auf einem Kern-Transfer-Set von 5 Datensätzen verbessert AdapterTune die Top-1-Genauigkeit gegenüber Head-Only-Transfer im Durchschnitt um +14,9 Punkte, trainiert dabei nur 0,92 % der Parameter von Full Fine-Tuning und übertrifft Full Fine-Tuning in 10 von 15 Datensatz-Backbone-Paaren. Im gesamten Benchmark übertrifft AdapterTune Head-Only-Transfer bei jedem getesteten Datensatz-Backbone-Paar. Ablationen zu Rang, Platzierung und Initialisierung isolieren jede Entwurfsentscheidung. Der Code ist verfügbar unter: https://github.com/salimkhazem/adaptertune

English

Frozen-backbone transfer with Vision Transformers faces two under-addressed issues: optimization instability when adapters are naively inserted into a fixed feature extractor, and the absence of principled guidance for setting adapter capacity. We introduce AdapterTune, which augments each transformer block with a residual low-rank bottleneck whose up-projection is zero-initialized, guaranteeing that the adapted network starts exactly at the pretrained function and eliminates early-epoch representation drift. On the analytical side, we formalize adapter rank as a capacity budget for approximating downstream task shifts in feature space. The resulting excess-risk decomposition predicts monotonic but diminishing accuracy gains with increasing rank, an ``elbow'' behavior we confirm through controlled sweeps. We evaluate on 9 datasets and 3 backbone scales with multi-seed reporting throughout. On a core 5 dataset transfer suite, AdapterTune improves top-1 accuracy over head-only transfer by +14.9 points on average while training only 0.92 of the parameters required by full fine-tuning, and outperforms full fine-tuning on 10 of 15 dataset-backbone pairs. Across the full benchmark, AdapterTune improves over head-only transfer on every dataset-backbone pair tested. Ablations on rank, placement, and initialization isolate each design choice. The code is available at: https://github.com/salimkhazem/adaptertune

AdapterTune: Null-initialisierte Low-Rank-Adapter für eingefrorene Vision-Transformer

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Zusammenfassung

Support