AdapterTune: Низкоранговые адаптеры с нулевой инициализацией для замороженных Vision Transformer

Аннотация

Перенос обучения с замороженной основой (frozen-backbone) для Vision Transformers сталкивается с двумя недостаточно изученными проблемами: нестабильностью оптимизации при наивном добавлении адаптеров в фиксированный экстрактор признаков и отсутствием принципиальных рекомендаций по выбору их емкости. Мы представляем метод AdapterTune, который дополняет каждый трансформаторный блок остаточным низкоранговым узким местом (bottleneck), чья проекция вверх инициализирована нулями. Это гарантирует, что адаптированная сеть начинает работу ровно с предобученной функции и исключает дрейф представлений на ранних эпохах. С аналитической стороны мы формализуем ранг адаптера как бюджет емкости для аппроксимации сдвигов пространства признаков целевой задачи. Полученное разложение избыточного риска предсказывает монотонный, но убывающий прирост точности с увеличением ранга — поведение по типу «локтя», которое мы подтверждаем в контролируемых экспериментах. Мы проводим оценку на 9 наборах данных и 3 масштабах основы с многократным усреднением по случайным seed. На основном наборе из 5 задач переноса AdapterTune улучшает точность Top-1 по сравнению с переносом только головы (head-only) в среднем на +14.9 пунктов, при этом обучая лишь 0.92% параметров от полной тонкой настройки (full fine-tuning), и превосходит полную тонкую настройку в 10 из 15 пар «набор данных-основа». По всему бенчмарку AdapterTune превосходит перенос только головы на всех протестированных парах. Абляционные исследования по рангу, размещению и инициализации изолируют влияние каждого проектного решения. Код доступен по адресу: https://github.com/salimkhazem/adaptertune

English

Frozen-backbone transfer with Vision Transformers faces two under-addressed issues: optimization instability when adapters are naively inserted into a fixed feature extractor, and the absence of principled guidance for setting adapter capacity. We introduce AdapterTune, which augments each transformer block with a residual low-rank bottleneck whose up-projection is zero-initialized, guaranteeing that the adapted network starts exactly at the pretrained function and eliminates early-epoch representation drift. On the analytical side, we formalize adapter rank as a capacity budget for approximating downstream task shifts in feature space. The resulting excess-risk decomposition predicts monotonic but diminishing accuracy gains with increasing rank, an ``elbow'' behavior we confirm through controlled sweeps. We evaluate on 9 datasets and 3 backbone scales with multi-seed reporting throughout. On a core 5 dataset transfer suite, AdapterTune improves top-1 accuracy over head-only transfer by +14.9 points on average while training only 0.92 of the parameters required by full fine-tuning, and outperforms full fine-tuning on 10 of 15 dataset-backbone pairs. Across the full benchmark, AdapterTune improves over head-only transfer on every dataset-backbone pair tested. Ablations on rank, placement, and initialization isolate each design choice. The code is available at: https://github.com/salimkhazem/adaptertune

AdapterTune: Низкоранговые адаптеры с нулевой инициализацией для замороженных Vision Transformer

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Аннотация

Support