ChatPaper.aiChatPaper

SOLAR 10.7B: Escalonamento de Modelos de Linguagem de Grande Porte com Escalonamento de Profundidade Simples, porém Eficaz

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

December 23, 2023
Autores: Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim
cs.AI

Resumo

Apresentamos o escalonamento de profundidade (DUS, na sigla em inglês), uma técnica inovadora para escalonar modelos de linguagem de grande escala (LLMs) de forma eficiente e eficaz de maneira simples. Em contraste com a abordagem de mistura de especialistas (MoE), o DUS não requer alterações complexas no treinamento e na inferência. Utilizando o DUS, construímos o SOLAR 10.7B, um modelo de linguagem de grande escala com 10,7 bilhões de parâmetros, que demonstra desempenho superior em diversas tarefas de processamento de linguagem natural (NLP). Avaliações comparativas mostram que o SOLAR 10.7B supera LLMs pré-treinados de código aberto existentes, como o Llama 2 e o Mistral 7B. Além disso, apresentamos o SOLAR 10.7B-Instruct, uma variante ajustada para capacidades de seguir instruções, que supera o Mixtral-8x7B. O SOLAR 10.7B está disponível publicamente sob a licença Apache 2.0, promovendo amplo acesso e aplicação no campo de LLMs.
English
We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs efficiently and effectively in a simple manner. In contrast to mixture-of-experts (MoE), DUS does not require complex changes to train and inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral 7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
PDF619February 8, 2026