PanGu-π: 비선형성 보상을 통한 언어 모델 아키텍처 개선
PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation
December 27, 2023
저자: Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie, Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu, Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao Xu, Dacheng Tao
cs.AI
초록
최근 대규모 언어 모델(LLM)의 트렌드는 더 나은 생성 능력을 달성하기 위해 모델 크기(즉, 매개변수 수)와 데이터셋의 규모를 증가시키는 방향으로 진행되고 있으며, 이는 GPT와 Llama와 같은 유명한 연구를 통해 확실히 입증되었습니다. 그러나 대규모 모델은 종종 막대한 계산 비용을 수반하며, 실제 응용 프로그램에서는 이러한 높은 비용을 감당하기 어렵습니다. 그럼에도 불구하고, LLM을 위한 강력한 모델 아키텍처를 구축하는 방법에 대한 논의는 드물게 이루어지고 있습니다. 우리는 먼저 최신 언어 모델 아키텍처를 분석하고 특징 붕괴 문제를 관찰했습니다. 이론적 분석을 바탕으로, 비선형성이 언어 모델에서도 매우 중요하다는 점을 제안하며, 이는 일반적으로 컴퓨터 비전 작업을 위한 합성곱 신경망(CNN)에서 연구되는 주제입니다. 이를 위해 계산 비용이 무시할 수 있을 정도로 작은 시리즈 인포먼드 활성화 함수를 도입하고, 모델의 비선형성을 더욱 강화하기 위해 증강된 숏컷을 추가로 사용했습니다. 그런 다음, 신중하게 설계된 제거 실험을 통해 제안된 접근 방식이 모델의 비선형성을 크게 향상시키는 데 매우 효과적임을 입증했으며, 이를 통해 현대적인 모델 아키텍처인 PanGu-pi를 제시합니다. 이후 동일한 데이터셋과 학습 전략을 사용하여 PanGu-pi와 최신 LLM을 비교하는 실험을 수행했습니다. 실험 결과, PanGu-pi-7B는 벤치마크와 비슷한 성능을 달성하면서 약 10%의 추론 속도 향상을 보였으며, PanGu-pi-1B는 정확도와 효율성 측면에서 최신 기술 수준의 성능을 달성했습니다. 또한, 우리는 PanGu-pi-7B를 금융 및 법률과 같은 고부가가치 분야에 배포하여 실용적인 응용을 위한 LLM인 YunShan을 개발했습니다. 실험 결과, YunShan은 유사한 규모의 다른 모델들을 벤치마크에서 능가할 수 있음을 보여주었습니다.
English
The recent trend of large language models (LLMs) is to increase the scale of
both model size (\aka the number of parameters) and dataset to achieve better
generative ability, which is definitely proved by a lot of work such as the
famous GPT and Llama. However, large models often involve massive computational
costs, and practical applications cannot afford such high prices. However, the
method of constructing a strong model architecture for LLMs is rarely
discussed. We first analyze the state-of-the-art language model architectures
and observe the feature collapse problem. Based on the theoretical analysis, we
propose that the nonlinearity is also very important for language models, which
is usually studied in convolutional neural networks for vision tasks. The
series informed activation function is then introduced with tiny calculations
that can be ignored, and an augmented shortcut is further used to enhance the
model nonlinearity. We then demonstrate that the proposed approach is
significantly effective for enhancing the model nonlinearity through carefully
designed ablations; thus, we present a new efficient model architecture for
establishing modern, namely, PanGu-pi. Experiments are then conducted using
the same dataset and training strategy to compare PanGu-pi with
state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a
comparable performance to that of benchmarks with about 10\% inference
speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms
of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the
high-value domains of finance and law, developing an LLM named YunShan for
practical application. The results show that YunShan can surpass other models
with similar scales on benchmarks.