Sobre el Origen de los LLMs: Un Árbol Evolutivo y Grafo para 15,821 Modelos de Lenguaje de Gran Escala
On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models
July 19, 2023
Autores: Sarah Gao, Andrew Kean Gao
cs.AI
Resumen
Desde finales de 2022, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han adquirido gran relevancia, con modelos como ChatGPT y Bard alcanzando millones de usuarios. Cada semana se anuncian cientos de nuevos LLMs, muchos de los cuales se depositan en Hugging Face, un repositorio de modelos y conjuntos de datos de aprendizaje automático. Hasta la fecha, se han subido casi 16,000 modelos de generación de texto a la plataforma. Dada la enorme afluencia de LLMs, resulta de interés conocer qué arquitecturas, configuraciones, métodos de entrenamiento y familias de LLMs son populares o están en tendencia. Sin embargo, no existe un índice completo de LLMs disponible. Aprovechamos la nomenclatura relativamente sistemática de los LLMs en Hugging Face para realizar agrupamiento jerárquico e identificar comunidades entre los LLMs utilizando n-gramas y la frecuencia de términos-inversa de la frecuencia en documentos. Nuestros métodos identifican con éxito familias de LLMs y agrupan con precisión los LLMs en subgrupos significativos. Presentamos una aplicación web pública para navegar y explorar Constellation, nuestro atlas de 15,821 LLMs. Constellation genera rápidamente una variedad de visualizaciones, como dendrogramas, gráficos, nubes de palabras y diagramas de dispersión. Constellation está disponible en el siguiente enlace: https://constellation.sites.stanford.edu/.
English
Since late 2022, Large Language Models (LLMs) have become very prominent with
LLMs like ChatGPT and Bard receiving millions of users. Hundreds of new LLMs
are announced each week, many of which are deposited to Hugging Face, a
repository of machine learning models and datasets. To date, nearly 16,000 Text
Generation models have been uploaded to the site. Given the huge influx of
LLMs, it is of interest to know which LLM backbones, settings, training
methods, and families are popular or trending. However, there is no
comprehensive index of LLMs available. We take advantage of the relatively
systematic nomenclature of Hugging Face LLMs to perform hierarchical clustering
and identify communities amongst LLMs using n-grams and term frequency-inverse
document frequency. Our methods successfully identify families of LLMs and
accurately cluster LLMs into meaningful subgroups. We present a public web
application to navigate and explore Constellation, our atlas of 15,821 LLMs.
Constellation rapidly generates a variety of visualizations, namely
dendrograms, graphs, word clouds, and scatter plots. Constellation is available
at the following link: https://constellation.sites.stanford.edu/.