ChatPaper.aiChatPaper

SOLAR 10.7B: Het schalen van grote taalmodelen met een eenvoudige maar effectieve diepte-opschaling

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

December 23, 2023
Auteurs: Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim
cs.AI

Samenvatting

We introduceren depth up-scaling (DUS), een nieuwe techniek om basis-LLM's op een efficiënte en effectieve manier op te schalen op een eenvoudige manier. In tegenstelling tot mixture-of-experts (MoE) vereist DUS geen complexe aanpassingen tijdens training en inferentie. Met behulp van DUS hebben we SOLAR 10.7B gebouwd, een groot taalmodel (LLM) met 10,7 miljard parameters, dat superieure prestaties laat zien in diverse natuurlijke taalverwerkingstaken (NLP). Vergelijkende evaluaties tonen aan dat SOLAR 10.7B bestaande open-source voorgetrainde LLM's, zoals Llama 2 en Mistral 7B, overtreft. Daarnaast presenteren we SOLAR 10.7B-Instruct, een variant die is afgestemd op instructievolgcapaciteiten en Mixtral-8x7B overstijgt. SOLAR 10.7B is publiekelijk beschikbaar onder de Apache 2.0-licentie, wat brede toegankelijkheid en toepassing in het LLM-veld bevordert.
English
We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs efficiently and effectively in a simple manner. In contrast to mixture-of-experts (MoE), DUS does not require complex changes to train and inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral 7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
PDF619February 8, 2026