Spectra : Une étude approfondie des modÚles de langage ternaires, quantifiés et FP16Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language
Models
La quantification post-entraßnement est la méthode principale pour résoudre les goulots d'étranglement liés à la mémoire dans l'inférence des LLM, mais malheureusement, elle entraßne une dégradation significative des performances en dessous de 4 bits. Une approche alternative consiste à entraßner directement des modÚles compressés à faible précision (par exemple, des modÚles binaires ou ternaires). Cependant, les performances, la dynamique d'entraßnement et les tendances de mise à l'échelle de tels modÚles ne sont pas encore bien comprises. Pour résoudre ce problÚme, nous avons entraßné et rendu public la suite Spectra LLM, composée de 54 modÚles de langage allant de 99M à 3,9B de paramÚtres, entraßnés sur 300B de tokens. Spectra comprend des FloatLMs, des QuantLMs quantifiés post-entraßnement (3, 4, 6 et 8 bits), et des LLMs ternaires (TriLMs) - notre architecture améliorée pour la modélisation de langage ternaire, qui surpasse significativement les modÚles ternaires précédemment proposés pour une taille donnée (en bits), égalant les modÚles en demi-précision à grande échelle. Par exemple, le TriLM 3.9B est (en termes de bits) plus petit que le FloatLM 830M en demi-précision, mais égalise le FloatLM 3.9B en demi-précision sur les benchmarks de raisonnement de bon sens et de connaissances. Cependant, le TriLM 3.9B est aussi toxique et stéréotypé que le FloatLM 3.9B, un modÚle six fois plus grand. De plus, le TriLM 3.9B est en retard par rapport au FloatLM en termes de perplexité sur les splits de validation et les corpus web, mais performe mieux sur des ensembles de données moins bruités comme Lambada et PennTreeBank. Pour améliorer la compréhension des modÚles à faible précision, nous publions plus de 500 points de contrÎle intermédiaires de la suite Spectra sur https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.