AdapterTune : Adaptateurs à rang faible à initialisation nulle pour les Transformers de Vision figés

Résumé

Le transfert par colonne vertébrale gelée (Frozen-Backbone) avec les Vision Transformers se heurte à deux problèmes sous-estimés : l'instabilité de l'optimisation lorsque des adaptateurs sont insérés de manière naïve dans un extracteur de caractéristiques fixe, et l'absence de principes directeurs pour définir la capacité des adaptateurs. Nous présentons AdapterTune, qui enrichit chaque bloc de transformer avec un goulot d'étranglement résiduel de faible rang dont la projection ascendante est initialisée à zéro, garantissant ainsi que le réseau adapté démarre exactement à partir de la fonction pré-entraînée et élimine la dérive des représentations en début d'époque. Sur le plan analytique, nous formalisons le rang de l'adaptateur comme un budget de capacité pour approximer les décalages de tâche en aval dans l'espace des caractéristiques. La décomposition du risque excédentaire qui en résulte prédit des gains de précision monotones mais décroissants avec l'augmentation du rang, un comportement en « coude » que nous confirmons par des balayages contrôlés. Nous évaluons notre méthode sur 9 ensembles de données et 3 échelles de colonnes vertébrales avec un reporting multi-graines systématique. Sur une suite centrale de transfert de 5 ensembles de données, AdapterTune améliore la précision top-1 par rapport à un transfert par tête seule de +14,9 points en moyenne tout en n'entraînant que 0,92 % des paramètres requis par le réglage fin complet, et surpasse le réglage fin complet sur 10 des 15 paires ensemble de données-colonne vertébrale. Sur l'ensemble du benchmark, AdapterTune améliore le transfert par tête seule sur toutes les paires ensemble de données-colonne vertébrale testées. Des ablations sur le rang, le placement et l'initialisation permettent d'isoler chaque choix de conception. Le code est disponible à l'adresse : https://github.com/salimkhazem/adaptertune

English

Frozen-backbone transfer with Vision Transformers faces two under-addressed issues: optimization instability when adapters are naively inserted into a fixed feature extractor, and the absence of principled guidance for setting adapter capacity. We introduce AdapterTune, which augments each transformer block with a residual low-rank bottleneck whose up-projection is zero-initialized, guaranteeing that the adapted network starts exactly at the pretrained function and eliminates early-epoch representation drift. On the analytical side, we formalize adapter rank as a capacity budget for approximating downstream task shifts in feature space. The resulting excess-risk decomposition predicts monotonic but diminishing accuracy gains with increasing rank, an ``elbow'' behavior we confirm through controlled sweeps. We evaluate on 9 datasets and 3 backbone scales with multi-seed reporting throughout. On a core 5 dataset transfer suite, AdapterTune improves top-1 accuracy over head-only transfer by +14.9 points on average while training only 0.92 of the parameters required by full fine-tuning, and outperforms full fine-tuning on 10 of 15 dataset-backbone pairs. Across the full benchmark, AdapterTune improves over head-only transfer on every dataset-backbone pair tested. Ablations on rank, placement, and initialization isolate each design choice. The code is available at: https://github.com/salimkhazem/adaptertune

AdapterTune : Adaptateurs à rang faible à initialisation nulle pour les Transformers de Vision figés

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Résumé

Support