PanGu-π: Aprimorando Arquiteturas de Modelos de Linguagem por meio de Compensação de Não Linearidade
PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation
December 27, 2023
Autores: Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie, Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu, Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao Xu, Dacheng Tao
cs.AI
Resumo
A tendência recente dos grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) é aumentar a escala tanto do tamanho do modelo (\aka o número de parâmetros) quanto do conjunto de dados para alcançar uma melhor capacidade gerativa, o que é definitivamente comprovado por diversos trabalhos, como os famosos GPT e Llama. No entanto, modelos grandes frequentemente envolvem custos computacionais massivos, e aplicações práticas não podem arcar com preços tão elevados. Além disso, o método de construir uma arquitetura de modelo robusta para LLMs raramente é discutido. Primeiramente, analisamos as arquiteturas de modelos de linguagem state-of-the-art e observamos o problema de colapso de características. Com base na análise teórica, propomos que a não linearidade também é muito importante para modelos de linguagem, algo que geralmente é estudado em redes neurais convolucionais para tarefas de visão. A função de ativação em série informada é então introduzida com cálculos mínimos que podem ser ignorados, e um atalho aumentado é utilizado para reforçar a não linearidade do modelo. Em seguida, demonstramos que a abordagem proposta é significativamente eficaz para melhorar a não linearidade do modelo por meio de ablações cuidadosamente projetadas; assim, apresentamos uma nova arquitetura de modelo eficiente para estabelecer um modelo moderno, denominado PanGu-pi. Experimentos são então conduzidos usando o mesmo conjunto de dados e estratégia de treinamento para comparar o PanGu-pi com LLMs state-of-the-art. Os resultados mostram que o PanGu-pi-7B pode alcançar um desempenho comparável ao dos benchmarks com uma aceleração de aproximadamente 10\% na velocidade de inferência, e o PanGu-pi-1B pode atingir desempenho state-of-the-art em termos de precisão e eficiência. Além disso, implantamos o PanGu-pi-7B em domínios de alto valor, como finanças e direito, desenvolvendo um LLM chamado YunShan para aplicação prática. Os resultados mostram que o YunShan pode superar outros modelos de escalas semelhantes em benchmarks.
English
The recent trend of large language models (LLMs) is to increase the scale of
both model size (\aka the number of parameters) and dataset to achieve better
generative ability, which is definitely proved by a lot of work such as the
famous GPT and Llama. However, large models often involve massive computational
costs, and practical applications cannot afford such high prices. However, the
method of constructing a strong model architecture for LLMs is rarely
discussed. We first analyze the state-of-the-art language model architectures
and observe the feature collapse problem. Based on the theoretical analysis, we
propose that the nonlinearity is also very important for language models, which
is usually studied in convolutional neural networks for vision tasks. The
series informed activation function is then introduced with tiny calculations
that can be ignored, and an augmented shortcut is further used to enhance the
model nonlinearity. We then demonstrate that the proposed approach is
significantly effective for enhancing the model nonlinearity through carefully
designed ablations; thus, we present a new efficient model architecture for
establishing modern, namely, PanGu-pi. Experiments are then conducted using
the same dataset and training strategy to compare PanGu-pi with
state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a
comparable performance to that of benchmarks with about 10\% inference
speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms
of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the
high-value domains of finance and law, developing an LLM named YunShan for
practical application. The results show that YunShan can surpass other models
with similar scales on benchmarks.