Adam-mini: より少ない学習率でより多くの成果をAdam-mini: Use Fewer Learning Rates To Gain More
我々はAdam-miniを提案する。これはAdamWと同等かそれ以上の性能を達成しつつ、メモリ使用量を45%から50%削減する最適化手法である。Adam-miniは、Adamにおける学習率リソース(すなわち1/v)を削減することでメモリ使用量を削減する。我々は、vにおける学習率の90%以上が無害に除去可能であることを発見した。これは、(1)提案されたヘッシアン構造に基づく原則に従ってパラメータをブロックに分割し、(2)各パラメータブロックに単一の適切な学習率を割り当てることで実現される。さらに、これらのパラメータブロックごとに、十分なリソースがあれば探索可能な単一の高品質な学習率が存在し、それがAdamを上回る性能を発揮し得ることを見出した。我々はその後、適切な学習率を見つけるためのコスト効率の良い方法を提供し、Adam-miniを提案する。実験的に、Adam-miniが125Mから7B規模の様々な言語モデルにおいて、事前学習、教師ありファインチューニング、RLHFにおいてAdamWと同等かそれ以上の性能を発揮することを検証した。Adam-miniの削減されたメモリ使用量は、GPUとCPU間の通信オーバーヘッドを軽減し、スループットを向上させる。例えば、Adam-miniは2台のA800-80GB GPUでLlama2-7Bを事前学習する際、AdamWよりも49.6%高いスループットを達成し、事前学習の実時間を33%節約する。