SHERL : Synthèse d'une mémoire à haute précision et efficace pour l'apprentissage par transfert avec ressources limitées
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning
July 10, 2024
Auteurs: Haiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen
cs.AI
Résumé
L'apprentissage par transfert efficace en paramètres (PETL) est devenu un domaine de recherche florissant pour adapter les grands modèles pré-entraînés à des tâches en aval, réduisant considérablement le nombre de paramètres à entraîner tout en faisant face aux défis de mémoire lors du réglage fin. Pour y remédier, les séries efficaces en mémoire (METL) évitent de propager les gradients à travers le grand modèle de base. Cependant, elles compromettent en s'appuyant exclusivement sur des sorties intermédiaires gelées et en limitant l'exploration exhaustive des connaissances antérieures des modèles pré-entraînés. De plus, la dépendance et la redondance entre les caractéristiques inter-couches sont souvent négligées, ce qui submerge des représentations plus discriminantes et crée un écart de performance inhérent (par rapport aux méthodes PETL conventionnelles). Par conséquent, nous proposons une stratégie METL innovante appelée SHERL pour les scénarios à ressources limitées, qui découple l'adaptation entière en deux processus successifs et complémentaires. Dans la première étape, les sorties intermédiaires sont consolidées via une opération anti-redondance, améliorant leur compatibilité pour les interactions ultérieures ; ainsi, dans la deuxième étape, l'utilisation minimale des dernières couches pré-entraînées peut atténuer la demande maximale en mémoire et réguler ces caractéristiques assez flexibles en représentations plus adaptatives et puissantes pour de nouveaux domaines. Des ablations approfondies sur des tâches visuelles et linguistiques ainsi que sur des tâches purement linguistiques montrent que SHERL combine les forces des techniques efficaces en paramètres et en mémoire, performant à égalité ou mieux sur diverses architectures avec une mémoire réduite lors du réglage fin. Notre code est disponible publiquement à l'adresse : https://github.com/Paranioar/SHERL.
English
Parameter-efficient transfer learning (PETL) has emerged as a flourishing
research field for adapting large pre-trained models to downstream tasks,
greatly reducing trainable parameters while grappling with memory challenges
during fine-tuning. To address it, memory-efficient series (METL) avoid
backpropagating gradients through the large backbone. However, they compromise
by exclusively relying on frozen intermediate outputs and limiting the
exhaustive exploration of prior knowledge from pre-trained models. Moreover,
the dependency and redundancy between cross-layer features are frequently
overlooked, thereby submerging more discriminative representations and causing
an inherent performance gap (vs. conventional PETL methods). Hence, we propose
an innovative METL strategy called SHERL for resource-limited scenarios to
decouple the entire adaptation into two successive and complementary processes.
In the early route, intermediate outputs are consolidated via an
anti-redundancy operation, enhancing their compatibility for subsequent
interactions; thereby in the late route, utilizing minimal late pre-trained
layers could alleviate the peak demand on memory overhead and regulate these
fairly flexible features into more adaptive and powerful representations for
new domains. Extensive ablations on vision-and-language and language-only tasks
show that SHERL combines the strengths of both parameter and memory-efficient
techniques, performing on-par or better across diverse architectures with lower
memory during fine-tuning. Our code is publicly available at:
https://github.com/Paranioar/SHERL.Summary
AI-Generated Summary