Sur l'origine des LLM : Un arbre évolutif et un graphe pour 15 821 grands modèles de langage
On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models
July 19, 2023
Auteurs: Sarah Gao, Andrew Kean Gao
cs.AI
Résumé
Depuis fin 2022, les modèles de langage de grande taille (LLMs) ont gagné en notoriété, avec des modèles comme ChatGPT et Bard qui ont attiré des millions d'utilisateurs. Des centaines de nouveaux LLMs sont annoncés chaque semaine, dont beaucoup sont déposés sur Hugging Face, une plateforme de référence pour les modèles d'apprentissage automatique et les jeux de données. À ce jour, près de 16 000 modèles de génération de texte ont été téléversés sur le site. Face à cet afflux massif de LLMs, il est intéressant de savoir quelles architectures de base, configurations, méthodes d'entraînement et familles de modèles sont populaires ou en vogue. Cependant, il n'existe pas d'index complet des LLMs disponibles. Nous tirons parti de la nomenclature relativement systématique des LLMs sur Hugging Face pour effectuer un clustering hiérarchique et identifier des communautés parmi les LLMs en utilisant des n-grammes et la fréquence des termes pondérée par l'inverse de la fréquence dans les documents. Nos méthodes permettent d'identifier avec succès des familles de LLMs et de regrouper de manière précise les LLMs en sous-groupes significatifs. Nous présentons une application web publique pour naviguer et explorer Constellation, notre atlas de 15 821 LLMs. Constellation génère rapidement une variété de visualisations, notamment des dendrogrammes, des graphes, des nuages de mots et des diagrammes de dispersion. Constellation est disponible à l'adresse suivante : https://constellation.sites.stanford.edu/.
English
Since late 2022, Large Language Models (LLMs) have become very prominent with
LLMs like ChatGPT and Bard receiving millions of users. Hundreds of new LLMs
are announced each week, many of which are deposited to Hugging Face, a
repository of machine learning models and datasets. To date, nearly 16,000 Text
Generation models have been uploaded to the site. Given the huge influx of
LLMs, it is of interest to know which LLM backbones, settings, training
methods, and families are popular or trending. However, there is no
comprehensive index of LLMs available. We take advantage of the relatively
systematic nomenclature of Hugging Face LLMs to perform hierarchical clustering
and identify communities amongst LLMs using n-grams and term frequency-inverse
document frequency. Our methods successfully identify families of LLMs and
accurately cluster LLMs into meaningful subgroups. We present a public web
application to navigate and explore Constellation, our atlas of 15,821 LLMs.
Constellation rapidly generates a variety of visualizations, namely
dendrograms, graphs, word clouds, and scatter plots. Constellation is available
at the following link: https://constellation.sites.stanford.edu/.