SOLAR 10.7B: Skalierung großer Sprachmodelle mit einfacher, aber effektiver Tiefen-Hochskalierung
SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling
December 23, 2023
Autoren: Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim
cs.AI
Zusammenfassung
Wir stellen Depth Up-Scaling (DUS) vor, eine neuartige Technik zur effizienten und effektiven Skalierung von Basis-LLMs auf einfache Weise. Im Gegensatz zu Mixture-of-Experts (MoE) erfordert DUS keine komplexen Änderungen für Training und Inferenz. Mit DUS haben wir SOLAR 10.7B entwickelt, ein großes Sprachmodell (LLM) mit 10,7 Milliarden Parametern, das überlegene Leistung in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) demonstriert. Vergleichende Auswertungen zeigen, dass SOLAR 10.7B bestehende Open-Source-vortrainierte LLMs wie Llama 2 und Mistral 7B übertrifft. Zusätzlich präsentieren wir SOLAR 10.7B-Instruct, eine Variante, die für Anweisungsbefolgung feinabgestimmt wurde und Mixtral-8x7B übertrifft. SOLAR 10.7B ist öffentlich unter der Apache-2.0-Lizenz verfügbar, was den breiten Zugang und die Anwendung im Bereich der LLMs fördert.
English
We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs
efficiently and effectively in a simple manner. In contrast to
mixture-of-experts (MoE), DUS does not require complex changes to train and
inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with
10.7 billion parameters, demonstrating superior performance in various natural
language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B
outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral
7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for
instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is
publicly available under the Apache 2.0 license, promoting broad access and
application in the LLM field.