Astraios: 코드 대형 언어 모델을 위한 파라미터 효율적 명령어 튜닝
Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models
January 1, 2024
저자: Terry Yue Zhuo, Armel Zebaze, Nitchakarn Suppattarachai, Leandro von Werra, Harm de Vries, Qian Liu, Niklas Muennighoff
cs.AI
초록
대규모 언어 모델(LLM)의 전체 파라미터 미세 조정(FFT)의 높은 비용으로 인해 일련의 파라미터 효율적 미세 조정(PEFT) 방법들이 등장했습니다. 그러나 다양한 모델 규모에서 어떤 방법이 가장 좋은 비용-성능 균형을 제공하는지 여전히 명확하지 않습니다. 우리는 7가지 튜닝 방법과 16억 파라미터까지의 4가지 모델 크기를 사용하여 28개의 지시 튜닝된 OctoCoder 모델로 구성된 Astraios를 소개합니다. 코드 이해와 코드 생성 작업을 포함한 5가지 작업과 8개의 다양한 데이터셋에 걸친 조사를 통해, FFT가 일반적으로 모든 규모에서 최고의 다운스트림 성능을 제공하며, PEFT 방법들은 모델 규모에 따라 효능이 크게 다르다는 것을 발견했습니다. LoRA는 일반적으로 비용과 성능 사이에서 가장 유리한 균형을 제공합니다. 이러한 방법들이 모델의 견고성과 코드 보안에 미치는 영향을 추가로 조사한 결과, 더 큰 모델일수록 견고성이 감소하고 보안이 약화되는 경향이 있음을 발견했습니다. 마지막으로, 업데이트된 파라미터, 교차 엔트로피 손실, 작업 성능 간의 관계를 탐구했습니다. 우리는 작은 모델에서 관찰된 튜닝 효과가 더 큰 모델로도 잘 일반화되며, 지시 튜닝에서의 검증 손실이 전반적인 다운스트림 성능의 신뢰할 수 있는 지표가 될 수 있음을 발견했습니다.
English
The high cost of full-parameter fine-tuning (FFT) of Large Language Models
(LLMs) has led to a series of parameter-efficient fine-tuning (PEFT) methods.
However, it remains unclear which methods provide the best cost-performance
trade-off at different model scales. We introduce Astraios, a suite of 28
instruction-tuned OctoCoder models using 7 tuning methods and 4 model sizes up
to 16 billion parameters. Through investigations across 5 tasks and 8 different
datasets encompassing both code comprehension and code generation tasks, we
find that FFT generally leads to the best downstream performance across all
scales, and PEFT methods differ significantly in their efficacy based on the
model scale. LoRA usually offers the most favorable trade-off between cost and
performance. Further investigation into the effects of these methods on both
model robustness and code security reveals that larger models tend to
demonstrate reduced robustness and less security. At last, we explore the
relationships among updated parameters, cross-entropy loss, and task
performance. We find that the tuning effectiveness observed in small models
generalizes well to larger models, and the validation loss in instruction
tuning can be a reliable indicator of overall downstream performance.