PanGu-π: Улучшение архитектур языковых моделей через компенсацию нелинейности

Аннотация

Современная тенденция в области больших языковых моделей (LLM) заключается в увеличении масштаба как размера модели (т.е. количества параметров), так и объема данных для достижения лучшей генеративной способности, что подтверждается множеством работ, таких как известные GPT и Llama. Однако крупные модели часто требуют значительных вычислительных затрат, и практические приложения не могут позволить себе такие высокие расходы. При этом метод построения эффективной архитектуры моделей для LLM редко обсуждается. Мы сначала анализируем современные архитектуры языковых моделей и наблюдаем проблему коллапса признаков. На основе теоретического анализа мы утверждаем, что нелинейность также крайне важна для языковых моделей, что обычно изучается в сверточных нейронных сетях для задач компьютерного зрения. Затем вводится серийная информированная функция активации с минимальными вычислениями, которыми можно пренебречь, а также используется расширенный шорткат для усиления нелинейности модели. Мы демонстрируем, что предложенный подход значительно эффективен для улучшения нелинейности модели с помощью тщательно спланированных экспериментов; таким образом, мы представляем новую эффективную архитектуру модели для современных задач, а именно PanGu-pi. Эксперименты проводятся с использованием того же набора данных и стратегии обучения для сравнения PanGu-pi с современными LLM. Результаты показывают, что PanGu-pi-7B достигает сопоставимой производительности с эталонными моделями при ускорении вывода примерно на 10%, а PanGu-pi-1B демонстрирует наилучшие показатели по точности и эффективности. Кроме того, мы внедрили PanGu-pi-7B в высокоценные области финансов и права, разработав LLM под названием YunShan для практического применения. Результаты показывают, что YunShan превосходит другие модели схожего масштаба на эталонных тестах.

English

The recent trend of large language models (LLMs) is to increase the scale of both model size (\aka the number of parameters) and dataset to achieve better generative ability, which is definitely proved by a lot of work such as the famous GPT and Llama. However, large models often involve massive computational costs, and practical applications cannot afford such high prices. However, the method of constructing a strong model architecture for LLMs is rarely discussed. We first analyze the state-of-the-art language model architectures and observe the feature collapse problem. Based on the theoretical analysis, we propose that the nonlinearity is also very important for language models, which is usually studied in convolutional neural networks for vision tasks. The series informed activation function is then introduced with tiny calculations that can be ignored, and an augmented shortcut is further used to enhance the model nonlinearity. We then demonstrate that the proposed approach is significantly effective for enhancing the model nonlinearity through carefully designed ablations; thus, we present a new efficient model architecture for establishing modern, namely, PanGu-pi. Experiments are then conducted using the same dataset and training strategy to compare PanGu-pi with state-of-the-art LLMs. The results show that PanGu-pi-7B can achieve a comparable performance to that of benchmarks with about 10\% inference speed-up, and PanGu-pi-1B can achieve state-of-the-art performance in terms of accuracy and efficiency. In addition, we have deployed PanGu-pi-7B in the high-value domains of finance and law, developing an LLM named YunShan for practical application. The results show that YunShan can surpass other models with similar scales on benchmarks.

PanGu-π: Улучшение архитектур языковых моделей через компенсацию нелинейности

PanGu-π: Enhancing Language Model Architectures via Nonlinearity Compensation

Аннотация

Support