SHERL : Synthèse d'une mémoire à haute précision et efficace pour l'apprentissage par transfert avec ressources limitées

papers.abstract

L'apprentissage par transfert efficace en paramètres (PETL) est devenu un domaine de recherche florissant pour adapter les grands modèles pré-entraînés à des tâches en aval, réduisant considérablement le nombre de paramètres à entraîner tout en faisant face aux défis de mémoire lors du réglage fin. Pour y remédier, les séries efficaces en mémoire (METL) évitent de propager les gradients à travers le grand modèle de base. Cependant, elles compromettent en s'appuyant exclusivement sur des sorties intermédiaires gelées et en limitant l'exploration exhaustive des connaissances antérieures des modèles pré-entraînés. De plus, la dépendance et la redondance entre les caractéristiques inter-couches sont souvent négligées, ce qui submerge des représentations plus discriminantes et crée un écart de performance inhérent (par rapport aux méthodes PETL conventionnelles). Par conséquent, nous proposons une stratégie METL innovante appelée SHERL pour les scénarios à ressources limitées, qui découple l'adaptation entière en deux processus successifs et complémentaires. Dans la première étape, les sorties intermédiaires sont consolidées via une opération anti-redondance, améliorant leur compatibilité pour les interactions ultérieures ; ainsi, dans la deuxième étape, l'utilisation minimale des dernières couches pré-entraînées peut atténuer la demande maximale en mémoire et réguler ces caractéristiques assez flexibles en représentations plus adaptatives et puissantes pour de nouveaux domaines. Des ablations approfondies sur des tâches visuelles et linguistiques ainsi que sur des tâches purement linguistiques montrent que SHERL combine les forces des techniques efficaces en paramètres et en mémoire, performant à égalité ou mieux sur diverses architectures avec une mémoire réduite lors du réglage fin. Notre code est disponible publiquement à l'adresse : https://github.com/Paranioar/SHERL.

English

Parameter-efficient transfer learning (PETL) has emerged as a flourishing research field for adapting large pre-trained models to downstream tasks, greatly reducing trainable parameters while grappling with memory challenges during fine-tuning. To address it, memory-efficient series (METL) avoid backpropagating gradients through the large backbone. However, they compromise by exclusively relying on frozen intermediate outputs and limiting the exhaustive exploration of prior knowledge from pre-trained models. Moreover, the dependency and redundancy between cross-layer features are frequently overlooked, thereby submerging more discriminative representations and causing an inherent performance gap (vs. conventional PETL methods). Hence, we propose an innovative METL strategy called SHERL for resource-limited scenarios to decouple the entire adaptation into two successive and complementary processes. In the early route, intermediate outputs are consolidated via an anti-redundancy operation, enhancing their compatibility for subsequent interactions; thereby in the late route, utilizing minimal late pre-trained layers could alleviate the peak demand on memory overhead and regulate these fairly flexible features into more adaptive and powerful representations for new domains. Extensive ablations on vision-and-language and language-only tasks show that SHERL combines the strengths of both parameter and memory-efficient techniques, performing on-par or better across diverse architectures with lower memory during fine-tuning. Our code is publicly available at: https://github.com/Paranioar/SHERL.

SHERL : Synthèse d'une mémoire à haute précision et efficace pour l'apprentissage par transfert avec ressources limitées

SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning

papers.abstract

Support