GaLore: 勾配低ランク射影によるメモリ効率の良いLLMトレーニングGaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
大規模言語モデル(LLM)のトレーニングは、重みとオプティマイザ状態の増大に伴い、メモリ上の大きな課題を抱えています。一般的なメモリ削減手法として、低ランク適応(LoRA)があります。これは、各層の凍結された事前学習済み重みに学習可能な低ランク行列を追加し、学習可能なパラメータとオプティマイザ状態を削減します。しかし、このような手法は、パラメータ探索を低ランク部分空間に制限し、トレーニングダイナミクスを変更するため、事前学習とファインチューニングの両方の段階で、フルランク重みを用いたトレーニングに比べて性能が劣ることが一般的です。さらに、フルランクのウォームスタートが必要となる場合もあります。 本研究では、Gradient Low-Rank Projection(GaLore)を提案します。これは、フルパラメータ学習を可能にしつつ、LoRAなどの一般的な低ランク適応手法よりもメモリ効率の高いトレーニング戦略です。我々のアプローチは、LLaMA 1Bおよび7BアーキテクチャでのC4データセットを用いた最大19.7Bトークンの事前学習、およびGLUEタスクでのRoBERTaのファインチューニングにおいて、効率と性能を維持しながら、オプティマイザ状態のメモリ使用量を最大65.5%削減します。さらに、8ビットGaLoreは、BF16ベースラインと比較して、オプティマイザメモリを最大82.5%、トレーニング全体のメモリを63.3%削減します。特に、初めて、24GBメモリを搭載したコンシューマーGPU(例:NVIDIA RTX 4090)上で、モデル並列化、チェックポイント、オフロード戦略なしに7Bモデルの事前学習が可能であることを実証しました。