DeepSeek LLM: Масштабирование открытых языковых моделей с долгосрочной перспективой

Аннотация

Быстрое развитие открытых крупных языковых моделей (LLM) действительно впечатляет. Однако законы масштабирования, описанные в предыдущих исследованиях, приводят к различным выводам, что создает неопределенность в отношении масштабирования LLM. Мы углубляемся в изучение законов масштабирования и представляем наши уникальные результаты, которые способствуют масштабированию крупных моделей в двух широко используемых открытых конфигурациях — 7B и 67B. Руководствуясь законами масштабирования, мы представляем проект DeepSeek LLM, посвященный развитию открытых языковых моделей с долгосрочной перспективой. Для поддержки этапа предварительного обучения мы разработали набор данных, который в настоящее время состоит из 2 триллионов токенов и продолжает расширяться. Мы также проводим контролируемую тонкую настройку (SFT) и оптимизацию прямых предпочтений (DPO) на базовых моделях DeepSeek LLM, что приводит к созданию моделей DeepSeek Chat. Результаты нашей оценки показывают, что DeepSeek LLM 67B превосходит LLaMA-2 70B на различных тестах, особенно в областях кода, математики и логического мышления. Кроме того, открытые оценки демонстрируют, что DeepSeek LLM 67B Chat показывает более высокую производительность по сравнению с GPT-3.5.

English

The rapid development of open-source large language models (LLMs) has been truly remarkable. However, the scaling law described in previous literature presents varying conclusions, which casts a dark cloud over scaling LLMs. We delve into the study of scaling laws and present our distinctive findings that facilitate scaling of large scale models in two commonly used open-source configurations, 7B and 67B. Guided by the scaling laws, we introduce DeepSeek LLM, a project dedicated to advancing open-source language models with a long-term perspective. To support the pre-training phase, we have developed a dataset that currently consists of 2 trillion tokens and is continuously expanding. We further conduct supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) on DeepSeek LLM Base models, resulting in the creation of DeepSeek Chat models. Our evaluation results demonstrate that DeepSeek LLM 67B surpasses LLaMA-2 70B on various benchmarks, particularly in the domains of code, mathematics, and reasoning. Furthermore, open-ended evaluations reveal that DeepSeek LLM 67B Chat exhibits superior performance compared to GPT-3.5.

DeepSeek LLM: Масштабирование открытых языковых моделей с долгосрочной перспективой

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Аннотация

Support