DeepSeek LLM: Scalabilità dei Modelli Linguistici Open-Source con una Visione a Lungo Termine

Abstract

Il rapido sviluppo dei modelli linguistici di grandi dimensioni (LLM) open-source è stato veramente straordinario. Tuttavia, la legge di scala descritta nella letteratura precedente presenta conclusioni variabili, il che getta un'ombra sullo scaling degli LLM. Approfondiamo lo studio delle leggi di scala e presentiamo i nostri risultati distintivi che facilitano lo scaling di modelli su larga scala in due configurazioni open-source comunemente utilizzate, 7B e 67B. Guidati dalle leggi di scala, introduciamo DeepSeek LLM, un progetto dedicato all'avanzamento dei modelli linguistici open-source con una prospettiva a lungo termine. Per supportare la fase di pre-training, abbiamo sviluppato un dataset che attualmente consiste in 2 trilioni di token e che è in continua espansione. Inoltre, conducono un fine-tuning supervisionato (SFT) e un'ottimizzazione diretta delle preferenze (DPO) sui modelli base di DeepSeek LLM, portando alla creazione dei modelli DeepSeek Chat. I nostri risultati di valutazione dimostrano che DeepSeek LLM 67B supera LLaMA-2 70B su vari benchmark, in particolare nei domini del codice, della matematica e del ragionamento. Inoltre, valutazioni aperte rivelano che DeepSeek LLM 67B Chat mostra prestazioni superiori rispetto a GPT-3.5.

English

The rapid development of open-source large language models (LLMs) has been truly remarkable. However, the scaling law described in previous literature presents varying conclusions, which casts a dark cloud over scaling LLMs. We delve into the study of scaling laws and present our distinctive findings that facilitate scaling of large scale models in two commonly used open-source configurations, 7B and 67B. Guided by the scaling laws, we introduce DeepSeek LLM, a project dedicated to advancing open-source language models with a long-term perspective. To support the pre-training phase, we have developed a dataset that currently consists of 2 trillion tokens and is continuously expanding. We further conduct supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) on DeepSeek LLM Base models, resulting in the creation of DeepSeek Chat models. Our evaluation results demonstrate that DeepSeek LLM 67B surpasses LLaMA-2 70B on various benchmarks, particularly in the domains of code, mathematics, and reasoning. Furthermore, open-ended evaluations reveal that DeepSeek LLM 67B Chat exhibits superior performance compared to GPT-3.5.

DeepSeek LLM: Scalabilità dei Modelli Linguistici Open-Source con una Visione a Lungo Termine

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Abstract

Support