SHERL: 리소스 제약이 있는 전이 학습을 위한 고정확도 및 효율적 메모리 통합
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning
July 10, 2024
저자: Haiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen
cs.AI
초록
파라미터 효율적 전이 학습(PETL)은 대규모 사전 학습 모델을 하위 작업에 적응시키기 위한 활발한 연구 분야로 부상하며, 미세 조정 과정에서의 메모리 문제를 해결하면서도 학습 가능한 파라미터 수를 크게 줄이는 방법으로 주목받고 있습니다. 이를 해결하기 위해 메모리 효율적 시리즈(METL)는 대형 백본을 통해 그래디언트를 역전파하지 않는 방식을 채택합니다. 그러나 이 방법은 고정된 중간 출력에만 의존함으로써 사전 학습 모델의 사전 지식을 충분히 탐색하지 못하는 한계가 있습니다. 또한, 계층 간 특징 간의 의존성과 중복성이 자주 간과되어 더욱 구별력 있는 표현이 묻히고, 기존 PETL 방법 대비 성능 격차가 발생합니다. 따라서 우리는 자원이 제한된 시나리오를 위해 SHERL이라는 혁신적인 METL 전략을 제안합니다. 이는 전체 적응 과정을 두 개의 연속적이고 상호 보완적인 프로세스로 분리합니다. 초기 경로에서는 중복 방지 작업을 통해 중간 출력을 통합하여 후속 상호작용에 대한 호환성을 향상시키고, 후기 경로에서는 최소한의 후기 사전 학습 계층을 활용하여 메모리 오버헤드의 최대 수요를 완화하고, 이러한 유연한 특징을 새로운 도메인에 더 적응적이고 강력한 표현으로 조정합니다. 시각 및 언어 작업과 언어 전용 작업에 대한 광범위한 실험 결과, SHERL은 파라미터 효율적 기술과 메모리 효율적 기술의 장점을 결합하여 다양한 아키텍처에서 동등하거나 더 나은 성능을 보이면서도 미세 조정 중 더 낮은 메모리를 사용함을 확인했습니다. 우리의 코드는 https://github.com/Paranioar/SHERL에서 공개되어 있습니다.
English
Parameter-efficient transfer learning (PETL) has emerged as a flourishing
research field for adapting large pre-trained models to downstream tasks,
greatly reducing trainable parameters while grappling with memory challenges
during fine-tuning. To address it, memory-efficient series (METL) avoid
backpropagating gradients through the large backbone. However, they compromise
by exclusively relying on frozen intermediate outputs and limiting the
exhaustive exploration of prior knowledge from pre-trained models. Moreover,
the dependency and redundancy between cross-layer features are frequently
overlooked, thereby submerging more discriminative representations and causing
an inherent performance gap (vs. conventional PETL methods). Hence, we propose
an innovative METL strategy called SHERL for resource-limited scenarios to
decouple the entire adaptation into two successive and complementary processes.
In the early route, intermediate outputs are consolidated via an
anti-redundancy operation, enhancing their compatibility for subsequent
interactions; thereby in the late route, utilizing minimal late pre-trained
layers could alleviate the peak demand on memory overhead and regulate these
fairly flexible features into more adaptive and powerful representations for
new domains. Extensive ablations on vision-and-language and language-only tasks
show that SHERL combines the strengths of both parameter and memory-efficient
techniques, performing on-par or better across diverse architectures with lower
memory during fine-tuning. Our code is publicly available at:
https://github.com/Paranioar/SHERL.Summary
AI-Generated Summary