ChatPaper.aiChatPaper

SOLAR 10.7B: Escalando Modelos de Lenguaje de Gran Escala con una Ampliación de Profundidad Simple pero Efectiva

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

December 23, 2023
Autores: Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim
cs.AI

Resumen

Presentamos el escalado en profundidad (DUS, por sus siglas en inglés), una técnica novedosa para escalar de manera eficiente y efectiva modelos de lenguaje grandes (LLM) de forma sencilla. A diferencia de los enfoques de mezcla de expertos (MoE), DUS no requiere cambios complejos en el entrenamiento ni en la inferencia. Utilizando DUS, construimos SOLAR 10.7B, un modelo de lenguaje grande con 10.7 mil millones de parámetros, que demuestra un rendimiento superior en diversas tareas de procesamiento de lenguaje natural (NLP). Las evaluaciones comparativas muestran que SOLAR 10.7B supera a los LLM preentrenados de código abierto existentes, como Llama 2 y Mistral 7B. Además, presentamos SOLAR 10.7B-Instruct, una variante ajustada para capacidades de seguimiento de instrucciones, que supera a Mixtral-8x7B. SOLAR 10.7B está disponible públicamente bajo la licencia Apache 2.0, promoviendo un acceso amplio y su aplicación en el campo de los LLM.
English
We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs efficiently and effectively in a simple manner. In contrast to mixture-of-experts (MoE), DUS does not require complex changes to train and inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral 7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
PDF599December 15, 2024