ChatPaper.aiChatPaper

DeepSeek LLM: 장기적 관점에서 오픈소스 언어 모델 확장하기

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

January 5, 2024
저자: DeepSeek-AI, Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen, Damai Dai, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Zhe Fu, Huazuo Gao, Kaige Gao, Wenjun Gao, Ruiqi Ge, Kang Guan, Daya Guo, Jianzhong Guo, Guangbo Hao, Zhewen Hao, Ying He, Wenjie Hu, Panpan Huang, Erhang Li, Guowei Li, Jiashi Li, Yao Li, Y. K. Li, Wenfeng Liang, Fangyun Lin, A. X. Liu, Bo Liu, Wen Liu, Xiaodong Liu, Xin Liu, Yiyuan Liu, Haoyu Lu, Shanghao Lu, Fuli Luo, Shirong Ma, Xiaotao Nie, Tian Pei, Yishi Piao, Junjie Qiu, Hui Qu, Tongzheng Ren, Zehui Ren, Chong Ruan, Zhangli Sha, Zhihong Shao, Junxiao Song, Xuecheng Su, Jingxiang Sun, Yaofeng Sun, Minghui Tang, Bingxuan Wang, Peiyi Wang, Shiyu Wang, Yaohui Wang, Yongji Wang, Tong Wu, Y. Wu, Xin Xie, Zhenda Xie, Ziwei Xie, Yiliang Xiong, Hanwei Xu, R. X. Xu, Yanhong Xu, Dejian Yang, Yuxiang You, Shuiping Yu, Xingkai Yu, B. Zhang, Haowei Zhang, Lecong Zhang, Liyue Zhang, Mingchuan Zhang, Minghua Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Qihao Zhu, Yuheng Zou
cs.AI

초록

오픈소스 대규모 언어 모델(LLM)의 급속한 발전은 정말로 놀라운 성과입니다. 그러나 기존 문헌에서 설명된 스케일링 법칙은 다양한 결론을 제시하며, 이는 LLM의 스케일링에 대해 불확실성을 드리우고 있습니다. 우리는 스케일링 법칙에 대한 연구를 깊이 파고들어, 7B와 67B라는 두 가지 일반적으로 사용되는 오픈소스 구성에서 대규모 모델의 스케일링을 용이하게 하는 독창적인 발견을 제시합니다. 이러한 스케일링 법칙을 바탕으로, 우리는 장기적인 관점에서 오픈소스 언어 모델을 발전시키기 위한 프로젝트인 DeepSeek LLM을 소개합니다. 사전 학습 단계를 지원하기 위해, 현재 2조 토큰으로 구성되고 지속적으로 확장 중인 데이터셋을 개발했습니다. 또한 DeepSeek LLM 베이스 모델에 대해 지도 미세 조정(SFT)과 직접 선호 최적화(DPO)를 수행하여 DeepSeek Chat 모델을 생성했습니다. 평가 결과는 DeepSeek LLM 67B가 다양한 벤치마크에서 LLaMA-2 70B를 능가하며, 특히 코드, 수학, 추론 분야에서 두각을 나타냄을 보여줍니다. 더 나아가, 개방형 평가에서 DeepSeek LLM 67B Chat이 GPT-3.5보다 우수한 성능을 보이는 것으로 나타났습니다.
English
The rapid development of open-source large language models (LLMs) has been truly remarkable. However, the scaling law described in previous literature presents varying conclusions, which casts a dark cloud over scaling LLMs. We delve into the study of scaling laws and present our distinctive findings that facilitate scaling of large scale models in two commonly used open-source configurations, 7B and 67B. Guided by the scaling laws, we introduce DeepSeek LLM, a project dedicated to advancing open-source language models with a long-term perspective. To support the pre-training phase, we have developed a dataset that currently consists of 2 trillion tokens and is continuously expanding. We further conduct supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) on DeepSeek LLM Base models, resulting in the creation of DeepSeek Chat models. Our evaluation results demonstrate that DeepSeek LLM 67B surpasses LLaMA-2 70B on various benchmarks, particularly in the domains of code, mathematics, and reasoning. Furthermore, open-ended evaluations reveal that DeepSeek LLM 67B Chat exhibits superior performance compared to GPT-3.5.
PDF494December 15, 2024