ChatPaper.aiChatPaper

Astraios: パラメータ効率型命令チューニングによるコード大規模言語モデル

Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models

January 1, 2024
著者: Terry Yue Zhuo, Armel Zebaze, Nitchakarn Suppattarachai, Leandro von Werra, Harm de Vries, Qian Liu, Niklas Muennighoff
cs.AI

要旨

大規模言語モデル(LLM)の全パラメータファインチューニング(FFT)の高コストは、一連のパラメータ効率的なファインチューニング(PEFT)手法の開発を促してきた。しかし、異なるモデル規模において、どの手法が最適なコストと性能のトレードオフを提供するかは依然として不明である。本研究では、7つのチューニング手法と最大160億パラメータまでの4つのモデルサイズを用いた、28の命令チューニング済みOctoCoderモデルからなるAstraiosを紹介する。コード理解とコード生成タスクを含む5つのタスクと8つの異なるデータセットにわたる調査を通じて、FFTは一般的にすべての規模において最良の下流タスク性能を発揮し、PEFT手法はモデル規模に基づいてその有効性が大きく異なることがわかった。LoRAは通常、コストと性能の間で最も有利なトレードオフを提供する。これらの手法がモデルの堅牢性とコードのセキュリティに及ぼす影響をさらに調査した結果、より大きなモデルは堅牢性が低下し、セキュリティも低くなる傾向があることが明らかになった。最後に、更新されたパラメータ、クロスエントロピー損失、およびタスク性能の関係を探る。小規模モデルで観察されたチューニングの有効性は大規模モデルにもよく一般化され、命令チューニングにおける検証損失は全体的な下流タスク性能の信頼できる指標となり得ることがわかった。
English
The high cost of full-parameter fine-tuning (FFT) of Large Language Models (LLMs) has led to a series of parameter-efficient fine-tuning (PEFT) methods. However, it remains unclear which methods provide the best cost-performance trade-off at different model scales. We introduce Astraios, a suite of 28 instruction-tuned OctoCoder models using 7 tuning methods and 4 model sizes up to 16 billion parameters. Through investigations across 5 tasks and 8 different datasets encompassing both code comprehension and code generation tasks, we find that FFT generally leads to the best downstream performance across all scales, and PEFT methods differ significantly in their efficacy based on the model scale. LoRA usually offers the most favorable trade-off between cost and performance. Further investigation into the effects of these methods on both model robustness and code security reveals that larger models tend to demonstrate reduced robustness and less security. At last, we explore the relationships among updated parameters, cross-entropy loss, and task performance. We find that the tuning effectiveness observed in small models generalizes well to larger models, and the validation loss in instruction tuning can be a reliable indicator of overall downstream performance.
PDF241December 15, 2024