Comprendre les LLM : Un aperçu complet de l'entraînement à l'inférence
Understanding LLMs: A Comprehensive Overview from Training to Inference
January 4, 2024
Auteurs: Yiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge
cs.AI
Résumé
L'introduction de ChatGPT a entraîné une augmentation significative de l'utilisation des modèles de langage de grande taille (LLMs) pour résoudre des tâches en aval. Dans ce contexte, l'accent est de plus en plus mis sur l'entraînement et le déploiement à moindre coût. L'entraînement et le déploiement économiques des LLMs représentent la tendance future de développement. Cet article passe en revue l'évolution des techniques d'entraînement des modèles de langage de grande taille et des technologies de déploiement d'inférence alignées sur cette tendance émergente. La discussion sur l'entraînement inclut divers aspects, tels que le prétraitement des données, l'architecture d'entraînement, les tâches de pré-entraînement, l'entraînement parallèle et le contenu pertinent lié au réglage fin des modèles. Du côté de l'inférence, l'article aborde des sujets tels que la compression de modèles, le calcul parallèle, la planification de la mémoire et l'optimisation structurelle. Il explore également l'utilisation des LLMs et offre des perspectives sur leur développement futur.
English
The introduction of ChatGPT has led to a significant increase in the
utilization of Large Language Models (LLMs) for addressing downstream tasks.
There's an increasing focus on cost-efficient training and deployment within
this context. Low-cost training and deployment of LLMs represent the future
development trend. This paper reviews the evolution of large language model
training techniques and inference deployment technologies aligned with this
emerging trend. The discussion on training includes various aspects, including
data preprocessing, training architecture, pre-training tasks, parallel
training, and relevant content related to model fine-tuning. On the inference
side, the paper covers topics such as model compression, parallel computation,
memory scheduling, and structural optimization. It also explores LLMs'
utilization and provides insights into their future development.