ChatPaper.aiChatPaper

SOLAR 10.7B: Масштабирование больших языковых моделей с помощью простого, но эффективного увеличения глубины

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

December 23, 2023
Авторы: Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim
cs.AI

Аннотация

Мы представляем метод масштабирования глубины (Depth Up-Scaling, DUS) — новую технику для эффективного и простого масштабирования базовых больших языковых моделей (LLM). В отличие от подхода смеси экспертов (Mixture-of-Experts, MoE), DUS не требует сложных изменений в процессе обучения и вывода. С использованием DUS мы создали SOLAR 10.7B — крупную языковую модель с 10,7 миллиардами параметров, демонстрирующую превосходную производительность в различных задачах обработки естественного языка (NLP). Сравнительные оценки показывают, что SOLAR 10.7B превосходит существующие открытые предобученные LLM, такие как Llama 2 и Mistral 7B. Мы также представляем SOLAR 10.7B-Instruct — вариант модели, дообученный для выполнения инструкций, который превосходит Mixtral-8x7B. SOLAR 10.7B доступна публично под лицензией Apache 2.0, что способствует широкому доступу и применению в области LLM.
English
We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs efficiently and effectively in a simple manner. In contrast to mixture-of-experts (MoE), DUS does not require complex changes to train and inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral 7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
PDF599December 15, 2024