스케일링이 LLM 파인튜닝과 만날 때: 데이터, 모델 및 파인튜닝 방법의 영향
When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
February 27, 2024
저자: Biao Zhang, Zhongtao Liu, Colin Cherry, Orhan Firat
cs.AI
초록
대규모 언어 모델(LLM)은 일반적으로 다운스트림 애플리케이션에서의 능력을 발휘하기 위해 파인튜닝을 채택하지만, 다양한 파인튜닝 방법의 귀납적 편향(특히 스케일링 특성)에 대한 우리의 이해는 여전히 제한적입니다. 이러한 격차를 메우기 위해, 우리는 LLM 모델 크기, 사전 학습 데이터 크기, 새로운 파인튜닝 파라미터 크기 및 파인튜닝 데이터 크기를 포함한 다양한 스케일링 요소가 파인튜닝 성능에 어떻게 영향을 미치는지 체계적인 실험을 수행했습니다. 우리는 전체 모델 튜닝(FMT)과 파라미터 효율적 튜닝(PET, 프롬프트 튜닝 및 LoRA 포함) 두 가지 유형의 파인튜닝을 고려하고, LLM 모델 크기가 파인튜닝 데이터 크기를 크게 초과하는 데이터 제한 환경에서의 스케일링 동작을 탐구했습니다. 1B에서 16B까지의 사전 학습된 이중 언어 LLM 두 세트와 이중 언어 기계 번역 및 다국어 요약 벤치마크에 대한 실험을 바탕으로, 우리는 1) LLM 파인튜닝은 파인튜닝 데이터 크기와 각 다른 스케일링 요소 간의 거듭제곱 기반의 곱셈적 결합 스케일링 법칙을 따르며, 2) LLM 파인튜닝은 사전 학습 데이터 스케일링보다 LLM 모델 스케일링에서 더 큰 이점을 얻으며, PET 파라미터 스케일링은 일반적으로 효과적이지 않다는 것, 그리고 3) 최적의 파인튜닝 방법은 과제 및 파인튜닝 데이터에 크게 의존한다는 것을 발견했습니다. 우리의 연구 결과가 LLM 파인튜닝 방법을 이해, 선택 및 개발하는 데 도움이 되기를 바랍니다.
English
While large language models (LLMs) often adopt finetuning to unlock their
capabilities for downstream applications, our understanding on the inductive
biases (especially the scaling properties) of different finetuning methods is
still limited. To fill this gap, we conduct systematic experiments studying
whether and how different scaling factors, including LLM model size,
pretraining data size, new finetuning parameter size and finetuning data size,
affect the finetuning performance. We consider two types of finetuning --
full-model tuning (FMT) and parameter efficient tuning (PET, including prompt
tuning and LoRA), and explore their scaling behaviors in the data-limited
regime where the LLM model size substantially outweighs the finetuning data
size. Based on two sets of pretrained bilingual LLMs from 1B to 16B and
experiments on bilingual machine translation and multilingual summarization
benchmarks, we find that 1) LLM finetuning follows a powerbased multiplicative
joint scaling law between finetuning data size and each other scaling factor;
2) LLM finetuning benefits more from LLM model scaling than pretraining data
scaling, and PET parameter scaling is generally ineffective; and 3) the optimal
finetuning method is highly task- and finetuning data-dependent. We hope our
findings could shed light on understanding, selecting and developing LLM
finetuning methods.