SHERL: Sintetizando Alta Precisión y Memoria Eficiente para Aprendizaje por Transferencia con Recursos Limitados
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning
July 10, 2024
Autores: Haiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen
cs.AI
Resumen
El aprendizaje por transferencia eficiente de parámetros (PETL) ha surgido como un campo de investigación próspero para adaptar modelos pre-entrenados grandes a tareas posteriores, reduciendo considerablemente los parámetros entrenables mientras se enfrenta a desafíos de memoria durante el ajuste fino. Para abordarlo, las series eficientes en memoria (METL) evitan propagar gradientes a través de la gran columna vertebral. Sin embargo, comprometen al depender exclusivamente de salidas intermedias congeladas y limitar la exploración exhaustiva del conocimiento previo de los modelos pre-entrenados. Además, la dependencia y redundancia entre características de capas cruzadas se pasan por alto con frecuencia, sumergiendo representaciones más discriminativas y causando una brecha de rendimiento inherente (vs. métodos PETL convencionales). Por lo tanto, proponemos una estrategia METL innovadora llamada SHERL para escenarios con recursos limitados para desvincular toda la adaptación en dos procesos sucesivos y complementarios. En la ruta temprana, las salidas intermedias se consolidan a través de una operación anti-redundancia, mejorando su compatibilidad para interacciones posteriores; así, en la ruta tardía, el uso de capas pre-entrenadas tardías mínimas podría aliviar la demanda máxima en la sobrecarga de memoria y regular estas características bastante flexibles en representaciones más adaptativas y poderosas para nuevos dominios. Abundantes abstracciones en tareas de visión y lenguaje y solo lenguaje muestran que SHERL combina las fortalezas de ambas técnicas eficientes en parámetros y memoria, desempeñándose al mismo nivel o mejor en diversas arquitecturas con menor memoria durante el ajuste fino. Nuestro código está disponible públicamente en: https://github.com/Paranioar/SHERL.
English
Parameter-efficient transfer learning (PETL) has emerged as a flourishing
research field for adapting large pre-trained models to downstream tasks,
greatly reducing trainable parameters while grappling with memory challenges
during fine-tuning. To address it, memory-efficient series (METL) avoid
backpropagating gradients through the large backbone. However, they compromise
by exclusively relying on frozen intermediate outputs and limiting the
exhaustive exploration of prior knowledge from pre-trained models. Moreover,
the dependency and redundancy between cross-layer features are frequently
overlooked, thereby submerging more discriminative representations and causing
an inherent performance gap (vs. conventional PETL methods). Hence, we propose
an innovative METL strategy called SHERL for resource-limited scenarios to
decouple the entire adaptation into two successive and complementary processes.
In the early route, intermediate outputs are consolidated via an
anti-redundancy operation, enhancing their compatibility for subsequent
interactions; thereby in the late route, utilizing minimal late pre-trained
layers could alleviate the peak demand on memory overhead and regulate these
fairly flexible features into more adaptive and powerful representations for
new domains. Extensive ablations on vision-and-language and language-only tasks
show that SHERL combines the strengths of both parameter and memory-efficient
techniques, performing on-par or better across diverse architectures with lower
memory during fine-tuning. Our code is publicly available at:
https://github.com/Paranioar/SHERL.Summary
AI-Generated Summary