PanGu-π: Potenziamento delle Architetture dei Modelli Linguistici attraverso la Compensazione della Non Linearità

Abstract

La recente tendenza dei grandi modelli linguistici (LLM) è quella di aumentare la scala sia delle dimensioni del modello (\aka il numero di parametri) che del dataset per ottenere una migliore capacità generativa, come dimostrato da numerosi lavori, tra cui i famosi GPT e Llama. Tuttavia, i modelli di grandi dimensioni spesso comportano costi computazionali elevati, e le applicazioni pratiche non possono sostenere prezzi così alti. Inoltre, il metodo per costruire un'architettura di modello robusta per gli LLM è raramente discusso. Iniziamo analizzando le architetture dei modelli linguistici all'avanguardia e osserviamo il problema del collasso delle caratteristiche. Sulla base dell'analisi teorica, proponiamo che la non linearità sia altrettanto importante per i modelli linguistici, un aspetto solitamente studiato nelle reti neurali convoluzionali per compiti di visione. Introduciamo quindi la funzione di attivazione informata in serie con calcoli minimi che possono essere ignorati, e utilizziamo un collegamento shortcut potenziato per migliorare la non linearità del modello. Dimostriamo poi che l'approccio proposto è significativamente efficace per migliorare la non linearità del modello attraverso ablazioni accuratamente progettate; presentiamo quindi una nuova architettura di modello efficiente per stabilire un modello moderno, denominato PanGu-pi. Gli esperimenti vengono condotti utilizzando lo stesso dataset e la stessa strategia di addestramento per confrontare PanGu-pi con gli LLM all'avanguardia. I risultati mostrano che PanGu-pi-7B può raggiungere una performance comparabile a quella dei benchmark con un aumento della velocità di inferenza di circa il 10%, e PanGu-pi-1B può raggiungere prestazioni all'avanguardia in termini di accuratezza ed efficienza. Inoltre, abbiamo implementato PanGu-pi-7B nei domini ad alto valore di finanza e diritto, sviluppando un LLM denominato YunShan per applicazioni pratiche. I risultati mostrano che YunShan può superare altri modelli di scala simile sui benchmark.

English

The recent trend of large language models (LLMs) is to increase the scale of both model size (\aka the number of parameters) and dataset to achieve better generative ability, which is definitely proved by a lot of work such as the famous GPT and Llama. However, large models often involve massive computational costs, and practical applications cannot afford such high prices. However, the method of constructing a strong model architecture for LLMs is rarely discussed. We first analyze the state-of-the-art language model architectures and observe the feature collapse problem. Based on the theoretical analysis, we propose that the nonlinearity is also very important for language models, which is usually studied in convolutional neural networks for vision tasks. The series informed activation function is then introduced with tiny calculations that can be ignored, and an augmented shortcut is further used to enhance the model nonlinearity. We then demonstrate that the proposed approach is significantly effective for enhancing the model nonlinearity through carefully designed ablations; thus, we present a new efficient model architecture for establishing modern, namely, PanGu-pi. Experiments are then conducted using the same dataset and training strategy to compare PanGu-pi with state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a comparable performance to that of benchmarks with about 10\% inference speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the high-value domains of finance and law, developing an LLM named YunShan for practical application. The results show that YunShan can surpass other models with similar scales on benchmarks.

PanGu-π: Potenziamento delle Architetture dei Modelli Linguistici attraverso la Compensazione della Non Linearità

PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation

Abstract

Support