AdapterTune: Adaptadores de Bajo Rango Inicializados en Cero para Transformadores de Visión Congelados

Resumen

La transferencia con *backbone* congelado en *Vision Transformers* enfrenta dos problemas poco abordados: la inestabilidad de optimización cuando los adaptadores se insertan de manera ingenua en un extractor de características fijo, y la ausencia de una guía fundamentada para establecer la capacidad del adaptador. Presentamos AdapterTune, que aumenta cada bloque *transformer* con un cuello de botella residual de bajo rango cuya proyección ascendente se inicializa en cero, garantizando que la red adaptada comience exactamente en la función preentrenada y eliminando la deriva de las representaciones en las primeras épocas. En el aspecto analítico, formalizamos el rango del adaptador como un presupuesto de capacidad para aproximar los desplazamientos de la tarea objetivo en el espacio de características. La descomposición de exceso de riesgo resultante predice ganancias de precisión monótonas pero decrecientes con el aumento del rango, un comportamiento de "codo" que confirmamos mediante barridos controlados. Evaluamos en 9 conjuntos de datos y 3 escalas de *backbone* con reportes multi-semilla en todos los casos. En un conjunto central de 5 conjuntos de datos para transferencia, AdapterTune mejora la precisión *top-1* respecto a la transferencia solo con cabezal en +14.9 puntos en promedio, mientras entrena solo el 0.92% de los parámetros requeridos por el ajuste fino completo, y supera al ajuste fino completo en 10 de 15 pares conjunto de datos-*backbone*. En todo el benchmark, AdapterTune mejora respecto a la transferencia solo con cabezal en cada par conjunto de datos-*backbone* probado. Las ablaciones sobre rango, ubicación e inicialización aíslan cada decisión de diseño. El código está disponible en: https://github.com/salimkhazem/adaptertune

English

Frozen-backbone transfer with Vision Transformers faces two under-addressed issues: optimization instability when adapters are naively inserted into a fixed feature extractor, and the absence of principled guidance for setting adapter capacity. We introduce AdapterTune, which augments each transformer block with a residual low-rank bottleneck whose up-projection is zero-initialized, guaranteeing that the adapted network starts exactly at the pretrained function and eliminates early-epoch representation drift. On the analytical side, we formalize adapter rank as a capacity budget for approximating downstream task shifts in feature space. The resulting excess-risk decomposition predicts monotonic but diminishing accuracy gains with increasing rank, an ``elbow'' behavior we confirm through controlled sweeps. We evaluate on 9 datasets and 3 backbone scales with multi-seed reporting throughout. On a core 5 dataset transfer suite, AdapterTune improves top-1 accuracy over head-only transfer by +14.9 points on average while training only 0.92 of the parameters required by full fine-tuning, and outperforms full fine-tuning on 10 of 15 dataset-backbone pairs. Across the full benchmark, AdapterTune improves over head-only transfer on every dataset-backbone pair tested. Ablations on rank, placement, and initialization isolate each design choice. The code is available at: https://github.com/salimkhazem/adaptertune

AdapterTune: Adaptadores de Bajo Rango Inicializados en Cero para Transformadores de Visión Congelados

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Resumen

Support