ChatPaper.aiChatPaper

SOLAR 10.7B : Mise à l'échelle des grands modèles de langage avec une augmentation de profondeur simple mais efficace

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

December 23, 2023
Auteurs: Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim
cs.AI

Résumé

Nous présentons la mise à l'échelle en profondeur (Depth Up-Scaling, DUS), une technique novatrice permettant de mettre à l'échelle les modèles de langage de base (LLM) de manière simple, efficace et efficiente. Contrairement aux méthodes de mélange d'experts (Mixture-of-Experts, MoE), la DUS ne nécessite pas de modifications complexes pour l'entraînement et l'inférence. En utilisant la DUS, nous avons développé SOLAR 10.7B, un modèle de langage de grande envergure (LLM) doté de 10,7 milliards de paramètres, qui démontre des performances supérieures dans diverses tâches de traitement du langage naturel (NLP). Les évaluations comparatives montrent que SOLAR 10.7B surpasse les LLM pré-entraînés open-source existants, tels que Llama 2 et Mistral 7B. Nous présentons également SOLAR 10.7B-Instruct, une variante fine-tunée pour des capacités de suivi d'instructions, surpassant Mixtral-8x7B. SOLAR 10.7B est disponible publiquement sous la licence Apache 2.0, favorisant un accès large et une application étendue dans le domaine des LLM.
English
We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs efficiently and effectively in a simple manner. In contrast to mixture-of-experts (MoE), DUS does not require complex changes to train and inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral 7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
PDF599December 15, 2024