ChatPaper.aiChatPaper

PanGu-π: Mejora de Arquitecturas de Modelos de Lenguaje mediante Compensación de No Linealidad

PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation

December 27, 2023
Autores: Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie, Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu, Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao Xu, Dacheng Tao
cs.AI

Resumen

La tendencia reciente en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es aumentar la escala tanto del tamaño del modelo (es decir, el número de parámetros) como del conjunto de datos para lograr una mejor capacidad generativa, lo cual ha sido ampliamente demostrado por trabajos como los famosos GPT y Llama. Sin embargo, los modelos grandes suelen implicar costos computacionales masivos, y las aplicaciones prácticas no pueden asumir precios tan elevados. Además, el método para construir una arquitectura de modelo sólida para LLMs rara vez se discute. En primer lugar, analizamos las arquitecturas de modelos de lenguaje más avanzadas y observamos el problema del colapso de características. Basándonos en el análisis teórico, proponemos que la no linealidad también es muy importante para los modelos de lenguaje, un aspecto que suele estudiarse en las redes neuronales convolucionales para tareas de visión. Luego, introducimos la función de activación informada en serie con cálculos mínimos que pueden ignorarse, y se utiliza un atajo aumentado para mejorar la no linealidad del modelo. Demostramos que el enfoque propuesto es significativamente efectivo para mejorar la no linealidad del modelo mediante ablaciones cuidadosamente diseñadas; así, presentamos una nueva arquitectura de modelo eficiente para establecer modelos modernos, denominada PanGu-pi. Posteriormente, se realizan experimentos utilizando el mismo conjunto de datos y estrategia de entrenamiento para comparar PanGu-pi con los LLMs más avanzados. Los resultados muestran que PanGu-pi-7B puede alcanzar un rendimiento comparable al de los puntos de referencia con una aceleración de inferencia de aproximadamente el 10%, y PanGu-pi-1B puede lograr un rendimiento de vanguardia en términos de precisión y eficiencia. Además, hemos implementado PanGu-pi-7B en los dominios de alto valor de las finanzas y el derecho, desarrollando un LLM llamado YunShan para aplicaciones prácticas. Los resultados muestran que YunShan puede superar a otros modelos de escalas similares en puntos de referencia.
English
The recent trend of large language models (LLMs) is to increase the scale of both model size (\aka the number of parameters) and dataset to achieve better generative ability, which is definitely proved by a lot of work such as the famous GPT and Llama. However, large models often involve massive computational costs, and practical applications cannot afford such high prices. However, the method of constructing a strong model architecture for LLMs is rarely discussed. We first analyze the state-of-the-art language model architectures and observe the feature collapse problem. Based on the theoretical analysis, we propose that the nonlinearity is also very important for language models, which is usually studied in convolutional neural networks for vision tasks. The series informed activation function is then introduced with tiny calculations that can be ignored, and an augmented shortcut is further used to enhance the model nonlinearity. We then demonstrate that the proposed approach is significantly effective for enhancing the model nonlinearity through carefully designed ablations; thus, we present a new efficient model architecture for establishing modern, namely, PanGu-pi. Experiments are then conducted using the same dataset and training strategy to compare PanGu-pi with state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a comparable performance to that of benchmarks with about 10\% inference speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the high-value domains of finance and law, developing an LLM named YunShan for practical application. The results show that YunShan can surpass other models with similar scales on benchmarks.
PDF161December 15, 2024