PanGu-π: Verbesserung von Sprachmodellarchitekturen durch Nichtlinearitätskompensation
PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation
December 27, 2023
Autoren: Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie, Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu, Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao Xu, Dacheng Tao
cs.AI
Zusammenfassung
Der aktuelle Trend bei großen Sprachmodellen (LLMs) besteht darin, die Skalierung sowohl der Modellgröße (d.h. der Anzahl der Parameter) als auch des Datensatzes zu erhöhen, um eine bessere generative Fähigkeit zu erreichen, was durch zahlreiche Arbeiten wie die bekannten GPT- und Llama-Modelle eindeutig belegt wird. Große Modelle sind jedoch oft mit erheblichen Rechenkosten verbunden, und praktische Anwendungen können sich derart hohe Kosten nicht leisten. Dennoch wird die Methode zur Konstruktion einer leistungsstarken Modellarchitektur für LLMs selten diskutiert. Wir analysieren zunächst die modernsten Sprachmodellarchitekturen und beobachten das Problem des Feature-Kollapses. Basierend auf der theoretischen Analyse schlagen wir vor, dass die Nichtlinearität auch für Sprachmodelle sehr wichtig ist, was üblicherweise in Faltungsneuronalen Netzen für Bildverarbeitungsaufgaben untersucht wird. Die sogenannte „series informed activation function“ wird dann mit minimalen, vernachlässigbaren Berechnungen eingeführt, und ein erweiterter Shortcut wird weiterhin verwendet, um die Modellnichtlinearität zu verstärken. Wir zeigen dann durch sorgfältig gestaltete Ablationsexperimente, dass der vorgeschlagene Ansatz signifikant effektiv zur Verbesserung der Modellnichtlinearität ist; somit präsentieren wir eine neue effiziente Modellarchitektur für moderne Anwendungen, nämlich PanGu-pi. Experimente werden dann mit demselben Datensatz und derselben Trainingsstrategie durchgeführt, um PanGu-pi mit den modernsten LLMs zu vergleichen. Die Ergebnisse zeigen, dass PanGu-pi-7B eine vergleichbare Leistung zu Benchmark-Modellen bei etwa 10 % schnellerer Inferenzgeschwindigkeit erreichen kann, und PanGu-pi-1B kann in Bezug auf Genauigkeit und Effizienz Spitzenleistungen erzielen. Darüber hinaus haben wir PanGu-pi-7B in den hochwertigen Domänen Finanzen und Recht eingesetzt und ein LLM namens YunShan für die praktische Anwendung entwickelt. Die Ergebnisse zeigen, dass YunShan andere Modelle ähnlicher Größe auf Benchmarks übertreffen kann.
English
The recent trend of large language models (LLMs) is to increase the scale of
both model size (\aka the number of parameters) and dataset to achieve better
generative ability, which is definitely proved by a lot of work such as the
famous GPT and Llama. However, large models often involve massive computational
costs, and practical applications cannot afford such high prices. However, the
method of constructing a strong model architecture for LLMs is rarely
discussed. We first analyze the state-of-the-art language model architectures
and observe the feature collapse problem. Based on the theoretical analysis, we
propose that the nonlinearity is also very important for language models, which
is usually studied in convolutional neural networks for vision tasks. The
series informed activation function is then introduced with tiny calculations
that can be ignored, and an augmented shortcut is further used to enhance the
model nonlinearity. We then demonstrate that the proposed approach is
significantly effective for enhancing the model nonlinearity through carefully
designed ablations; thus, we present a new efficient model architecture for
establishing modern, namely, PanGu-pi. Experiments are then conducted using
the same dataset and training strategy to compare PanGu-pi with
state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a
comparable performance to that of benchmarks with about 10\% inference
speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms
of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the
high-value domains of finance and law, developing an LLM named YunShan for
practical application. The results show that YunShan can surpass other models
with similar scales on benchmarks.