Über den Ursprung von LLMs: Ein evolutionärer Baum und Graph für 15.821 große Sprachmodelle
On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models
July 19, 2023
Autoren: Sarah Gao, Andrew Kean Gao
cs.AI
Zusammenfassung
Seit Ende 2022 haben Large Language Models (LLMs) große Bekanntheit erlangt, wobei Modelle wie ChatGPT und Bard Millionen von Nutzern erreichen. Wöchentlich werden Hunderte neuer LLMs angekündigt, von denen viele auf Hugging Face, einem Repository für Machine-Learning-Modelle und Datensätze, veröffentlicht werden. Bis heute wurden fast 16.000 Textgenerierungsmodelle auf der Plattform hochgeladen. Angesichts des enormen Zustroms von LLMs ist es von Interesse zu wissen, welche LLM-Backbones, Einstellungen, Trainingsmethoden und Modellfamilien populär oder im Trend sind. Allerdings gibt es keinen umfassenden Index von LLMs. Wir nutzen die relativ systematische Nomenklatur der LLMs auf Hugging Face, um hierarchisches Clustering durchzuführen und Gemeinschaften unter den LLMs mithilfe von N-Grammen und Term Frequency-Inverse Document Frequency zu identifizieren. Unsere Methoden identifizieren erfolgreich LLM-Familien und clustern LLMs präzise in sinnvolle Untergruppen. Wir präsentieren eine öffentliche Webanwendung, um Constellation, unseren Atlas von 15.821 LLMs, zu navigieren und zu erkunden. Constellation erzeugt schnell eine Vielzahl von Visualisierungen, nämlich Dendrogramme, Graphen, Wortwolken und Streudiagramme. Constellation ist unter folgendem Link verfügbar: https://constellation.sites.stanford.edu/.
English
Since late 2022, Large Language Models (LLMs) have become very prominent with
LLMs like ChatGPT and Bard receiving millions of users. Hundreds of new LLMs
are announced each week, many of which are deposited to Hugging Face, a
repository of machine learning models and datasets. To date, nearly 16,000 Text
Generation models have been uploaded to the site. Given the huge influx of
LLMs, it is of interest to know which LLM backbones, settings, training
methods, and families are popular or trending. However, there is no
comprehensive index of LLMs available. We take advantage of the relatively
systematic nomenclature of Hugging Face LLMs to perform hierarchical clustering
and identify communities amongst LLMs using n-grams and term frequency-inverse
document frequency. Our methods successfully identify families of LLMs and
accurately cluster LLMs into meaningful subgroups. We present a public web
application to navigate and explore Constellation, our atlas of 15,821 LLMs.
Constellation rapidly generates a variety of visualizations, namely
dendrograms, graphs, word clouds, and scatter plots. Constellation is available
at the following link: https://constellation.sites.stanford.edu/.