Spektren: Eine umfassende Studie von Ternären, quantisierten und FP16-SprachmodellenSpectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language
Models
Die Post-Training-Quantisierung ist die führende Methode zur Bewältigung von Speicherproblemen bei der Inferenz von LLM, leidet jedoch leider unter signifikanter Leistungsminderung unterhalb einer Präzision von 4 Bit. Ein alternativer Ansatz besteht darin, komprimierte Modelle direkt mit geringer Bitbreite zu trainieren (z.B. binäre oder ternäre Modelle). Die Leistung, Trainingsdynamik und Skalierungstrends solcher Modelle sind jedoch noch nicht gut verstanden. Um dieses Problem anzugehen, haben wir das Spectra LLM-Paket entwickelt und veröffentlicht, das aus 54 Sprachmodellen mit 99M bis 3.9B Parametern besteht, die auf 300B Tokens trainiert wurden. Spectra umfasst FloatLMs, post-training quantisierte QuantLMs (3, 4, 6 und 8 Bit) und ternäre LLMs (TriLMs) - unsere verbesserte Architektur für ternäres Sprachmodellieren, die signifikant besser abschneidet als zuvor vorgeschlagene ternäre Modelle gleicher Größe (in Bits) und halbpräzise Modelle im großen Maßstab erreicht. Zum Beispiel ist TriLM 3.9B (bitweise) kleiner als das halbpräzise FloatLM 830M, erreicht jedoch die Leistung des halbpräzisen FloatLM 3.9B bei Tests zur Alltagslogik und Wissensbenchmarks. TriLM 3.9B ist jedoch genauso toxisch und stereotyp wie FloatLM 3.9B, ein Modell, das sechsmal größer ist. Darüber hinaus hinkt TriLM 3.9B beim Perplexitätsmaß auf Validierungssätzen und webbasierten Korpora hinter FloatLM her, schneidet jedoch auf weniger rauschigen Datensätzen wie Lambada und PennTreeBank besser ab. Zur Verbesserung des Verständnisses von Modellen mit geringer Bitbreite veröffentlichen wir über 500 Zwischenprüfpunkte des Spectra-Pakets unter https://github.com/NolanoOrg/SpectraSuite.