SOLAR 10.7B: Skalierung großer Sprachmodelle mit einfacher, aber effektiver Tiefen-Hochskalierung

papers.abstract

Wir stellen Depth Up-Scaling (DUS) vor, eine neuartige Technik zur effizienten und effektiven Skalierung von Basis-LLMs auf einfache Weise. Im Gegensatz zu Mixture-of-Experts (MoE) erfordert DUS keine komplexen Änderungen für Training und Inferenz. Mit DUS haben wir SOLAR 10.7B entwickelt, ein großes Sprachmodell (LLM) mit 10,7 Milliarden Parametern, das überlegene Leistung in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) demonstriert. Vergleichende Auswertungen zeigen, dass SOLAR 10.7B bestehende Open-Source-vortrainierte LLMs wie Llama 2 und Mistral 7B übertrifft. Zusätzlich präsentieren wir SOLAR 10.7B-Instruct, eine Variante, die für Anweisungsbefolgung feinabgestimmt wurde und Mixtral-8x7B übertrifft. SOLAR 10.7B ist öffentlich unter der Apache-2.0-Lizenz verfügbar, was den breiten Zugang und die Anwendung im Bereich der LLMs fördert.

English

We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs efficiently and effectively in a simple manner. In contrast to mixture-of-experts (MoE), DUS does not require complex changes to train and inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral 7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.

SOLAR 10.7B: Skalierung großer Sprachmodelle mit einfacher, aber effektiver Tiefen-Hochskalierung

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

papers.abstract

Support