Spectra: 三値化、量子化、FP16言語モデルの包括的研究Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language
Models
ポストトレーニング量子化は、LLM推論におけるメモリ関連のボトルネックに対処する主要な手法ですが、残念ながら4ビット以下の精度では性能が大幅に低下するという課題があります。これに対する代替アプローチとして、低ビット幅(例えばバイナリや3値モデル)で直接圧縮モデルをトレーニングする方法があります。しかし、このようなモデルの性能、トレーニングダイナミクス、スケーリング傾向についてはまだ十分に理解されていません。この問題に対処するため、私たちは99Mから3.9Bパラメータまでの54の言語モデルからなるSpectra LLMスイートを300Bトークンでトレーニングし、公開しました。Spectraには、FloatLM、ポストトレーニング量子化されたQuantLM(3、4、6、8ビット)、そして3値LLM(TriLM)が含まれています。TriLMは、私たちが改良した3値言語モデリングのアーキテクチャで、与えられたサイズ(ビット単位)の従来の3値モデルを大幅に上回り、大規模では半精度モデルに匹敵する性能を発揮します。例えば、TriLM 3.9Bは半精度FloatLM 830Mよりも(ビット単位で)小さく、半精度FloatLM 3.9Bと常識推論や知識ベンチマークで同等の性能を示します。しかし、TriLM 3.9Bは、サイズが6倍大きいFloatLM 3.9Bと同様に有害でステレオタイプ的な特性も持っています。さらに、TriLM 3.9Bは、検証用データセットやウェブベースのコーパスでのパープレキシティではFloatLMに劣りますが、LambadaやPennTreeBankのようなノイズの少ないデータセットではより良い性能を発揮します。 低ビット幅モデルの理解を深めるため、私たちはSpectraスイートの中間チェックポイント500以上をhttps://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}で公開しています。