ChatPaper.aiChatPaper

PanGu-π : Amélioration des architectures de modèles de langage par compensation de non-linéarité

PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation

December 27, 2023
Auteurs: Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie, Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu, Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao Xu, Dacheng Tao
cs.AI

Résumé

La tendance récente des grands modèles de langage (LLMs) consiste à augmenter l'échelle à la fois de la taille du modèle (\aka le nombre de paramètres) et du jeu de données pour améliorer leur capacité générative, ce qui est clairement démontré par de nombreux travaux tels que les célèbres GPT et Llama. Cependant, les grands modèles impliquent souvent des coûts de calcul massifs, et les applications pratiques ne peuvent pas se permettre de tels prix élevés. Par ailleurs, la méthode de construction d'une architecture de modèle robuste pour les LLMs est rarement discutée. Nous analysons d'abord les architectures de modèles de langage de pointe et observons le problème d'effondrement des caractéristiques. Sur la base de l'analyse théorique, nous proposons que la non-linéarité est également très importante pour les modèles de langage, un aspect généralement étudié dans les réseaux de neurones convolutifs pour les tâches de vision. La fonction d'activation informée en série est ensuite introduite avec des calculs minimes qui peuvent être ignorés, et un raccourci augmenté est utilisé pour renforcer la non-linéarité du modèle. Nous démontrons ensuite que l'approche proposée est significativement efficace pour améliorer la non-linéarité du modèle grâce à des ablations soigneusement conçues ; ainsi, nous présentons une nouvelle architecture de modèle efficace pour établir un modèle moderne, nommé PanGu-pi. Des expériences sont ensuite menées en utilisant le même jeu de données et la même stratégie d'entraînement pour comparer PanGu-pi avec les LLMs de pointe. Les résultats montrent que PanGu-pi-7B peut atteindre une performance comparable à celle des benchmarks avec une accélération de l'inférence d'environ 10\%, et que PanGu-pi-1B peut atteindre des performances de pointe en termes de précision et d'efficacité. De plus, nous avons déployé PanGu-pi-7B dans les domaines à haute valeur ajoutée de la finance et du droit, développant un LLM nommé YunShan pour une application pratique. Les résultats montrent que YunShan peut surpasser d'autres modèles de taille similaire sur les benchmarks.
English
The recent trend of large language models (LLMs) is to increase the scale of both model size (\aka the number of parameters) and dataset to achieve better generative ability, which is definitely proved by a lot of work such as the famous GPT and Llama. However, large models often involve massive computational costs, and practical applications cannot afford such high prices. However, the method of constructing a strong model architecture for LLMs is rarely discussed. We first analyze the state-of-the-art language model architectures and observe the feature collapse problem. Based on the theoretical analysis, we propose that the nonlinearity is also very important for language models, which is usually studied in convolutional neural networks for vision tasks. The series informed activation function is then introduced with tiny calculations that can be ignored, and an augmented shortcut is further used to enhance the model nonlinearity. We then demonstrate that the proposed approach is significantly effective for enhancing the model nonlinearity through carefully designed ablations; thus, we present a new efficient model architecture for establishing modern, namely, PanGu-pi. Experiments are then conducted using the same dataset and training strategy to compare PanGu-pi with state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a comparable performance to that of benchmarks with about 10\% inference speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the high-value domains of finance and law, developing an LLM named YunShan for practical application. The results show that YunShan can surpass other models with similar scales on benchmarks.
PDF161December 15, 2024