ChatPaper.aiChatPaper

PanGu-π: Verbetering van Taalmodelarchitecturen via Nonlineariteitscompensatie

PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation

December 27, 2023
Auteurs: Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie, Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu, Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao Xu, Dacheng Tao
cs.AI

Samenvatting

De recente trend bij grote taalmodellen (LLMs) is het vergroten van zowel de schaal van het model (d.w.z. het aantal parameters) als de dataset om een betere generatieve capaciteit te bereiken, wat duidelijk wordt bewezen door veel werk, zoals de bekende GPT en Llama. Grote modellen brengen echter vaak enorme rekenkosten met zich mee, en praktische toepassingen kunnen zich zulke hoge kosten niet veroorloven. Toch wordt de methode voor het construeren van een sterke modelarchitectuur voor LLMs zelden besproken. We analyseren eerst de state-of-the-art taalmodelarchitecturen en observeren het probleem van feature collapse. Op basis van de theoretische analyse stellen we voor dat nonlineariteit ook zeer belangrijk is voor taalmodellen, wat meestal wordt bestudeerd in convolutionele neurale netwerken voor visuele taken. De series informed activatiefunctie wordt vervolgens geïntroduceerd met minimale berekeningen die kunnen worden verwaarloosd, en een augmented shortcut wordt verder gebruikt om de modelnonlineariteit te versterken. We demonstreren vervolgens dat de voorgestelde aanpak zeer effectief is voor het verbeteren van de modelnonlineariteit door zorgvuldig ontworpen ablatie-experimenten; zo presenteren we een nieuwe efficiënte modelarchitectuur voor het opzetten van moderne modellen, namelijk PanGu-pi. Experimenten worden vervolgens uitgevoerd met dezelfde dataset en trainingsstrategie om PanGu-pi te vergelijken met state-of-the-art LLMs. De resultaten laten zien dat PanGu-pi-7B een vergelijkbare prestaties kan bereiken als benchmarks met ongeveer 10% snellere inferentie, en PanGu-pi-1B kan state-of-the-art prestaties bereiken wat betreft nauwkeurigheid en efficiëntie. Daarnaast hebben we PanGu-pi-7B geïmplementeerd in de hoogwaardige domeinen van financiën en recht, waarbij we een LLM genaamd YunShan hebben ontwikkeld voor praktische toepassing. De resultaten laten zien dat YunShan andere modellen van vergelijkbare schaal op benchmarks kan overtreffen.
English
The recent trend of large language models (LLMs) is to increase the scale of both model size (\aka the number of parameters) and dataset to achieve better generative ability, which is definitely proved by a lot of work such as the famous GPT and Llama. However, large models often involve massive computational costs, and practical applications cannot afford such high prices. However, the method of constructing a strong model architecture for LLMs is rarely discussed. We first analyze the state-of-the-art language model architectures and observe the feature collapse problem. Based on the theoretical analysis, we propose that the nonlinearity is also very important for language models, which is usually studied in convolutional neural networks for vision tasks. The series informed activation function is then introduced with tiny calculations that can be ignored, and an augmented shortcut is further used to enhance the model nonlinearity. We then demonstrate that the proposed approach is significantly effective for enhancing the model nonlinearity through carefully designed ablations; thus, we present a new efficient model architecture for establishing modern, namely, PanGu-pi. Experiments are then conducted using the same dataset and training strategy to compare PanGu-pi with state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a comparable performance to that of benchmarks with about 10\% inference speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the high-value domains of finance and law, developing an LLM named YunShan for practical application. The results show that YunShan can surpass other models with similar scales on benchmarks.
PDF161February 9, 2026