ChatPaper.aiChatPaper

대형 언어 모델의 기원: 15,821개 대형 언어 모델의 진화 트리와 그래프

On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models

July 19, 2023
저자: Sarah Gao, Andrew Kean Gao
cs.AI

초록

2022년 말부터 대형 언어 모델(LLMs)은 ChatGPT와 Bard와 같은 모델들이 수백만 명의 사용자를 확보하며 매우 두각을 나타내고 있습니다. 매주 수백 개의 새로운 LLM이 발표되며, 이 중 다수는 머신러닝 모델과 데이터셋의 저장소인 Hugging Face에 등록됩니다. 현재까지 이 사이트에는 거의 16,000개의 텍스트 생성 모델이 업로드되었습니다. 이러한 LLM의 급증 속에서 어떤 LLM 백본, 설정, 훈련 방법 및 계열이 인기 있는지 또는 트렌드인지 파악하는 것이 중요합니다. 그러나 현재 LLM을 종합적으로 정리한 인덱스는 존재하지 않습니다. 우리는 Hugging Face의 LLM 명명 체계가 비교적 체계적이라는 점을 활용하여 n-그램과 TF-IDF(단어 빈도-역문서 빈도)를 사용해 계층적 클러스터링을 수행하고 LLM 간의 커뮤니티를 식별했습니다. 우리의 방법은 LLM 계열을 성공적으로 식별하고 LLM을 의미 있는 하위 그룹으로 정확하게 클러스터링합니다. 우리는 15,821개의 LLM을 담은 아틀라스인 Constellation을 탐색하고 조사할 수 있는 공개 웹 애플리케이션을 제시합니다. Constellation은 덴드로그램, 그래프, 워드 클라우드, 산점도 등 다양한 시각화를 신속하게 생성합니다. Constellation은 다음 링크에서 이용 가능합니다: https://constellation.sites.stanford.edu/.
English
Since late 2022, Large Language Models (LLMs) have become very prominent with LLMs like ChatGPT and Bard receiving millions of users. Hundreds of new LLMs are announced each week, many of which are deposited to Hugging Face, a repository of machine learning models and datasets. To date, nearly 16,000 Text Generation models have been uploaded to the site. Given the huge influx of LLMs, it is of interest to know which LLM backbones, settings, training methods, and families are popular or trending. However, there is no comprehensive index of LLMs available. We take advantage of the relatively systematic nomenclature of Hugging Face LLMs to perform hierarchical clustering and identify communities amongst LLMs using n-grams and term frequency-inverse document frequency. Our methods successfully identify families of LLMs and accurately cluster LLMs into meaningful subgroups. We present a public web application to navigate and explore Constellation, our atlas of 15,821 LLMs. Constellation rapidly generates a variety of visualizations, namely dendrograms, graphs, word clouds, and scatter plots. Constellation is available at the following link: https://constellation.sites.stanford.edu/.
PDF478December 15, 2024