ChatPaper.aiChatPaper

Rapport technique d'Aquila2

Aquila2 Technical Report

August 14, 2024
Auteurs: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI

Résumé

Cet article présente la série Aquila2, qui comprend une gamme étendue de modèles bilingues avec des tailles de paramètres de 7, 34 et 70 milliards. Ces modèles sont entraînés sur la base d'un cadre innovant nommé HeuriMentor (HM), qui offre des insights en temps réel sur la convergence du modèle et améliore le processus d'entraînement ainsi que la gestion des données. Le système HM, composé du moteur d'entraînement adaptatif (Adaptive Training Engine, ATE), du moniteur d'état d'entraînement (Training State Monitor, TSM) et de l'unité de gestion des données (Data Management Unit, DMU), permet une surveillance précise de la progression de l'entraînement du modèle et facilite l'optimisation efficace de la distribution des données, améliorant ainsi l'efficacité de l'entraînement. Des évaluations approfondies montrent que la série de modèles Aquila2 performe de manière comparable sur les benchmarks en anglais et en chinois. Plus précisément, Aquila2-34B ne montre qu'une légère baisse de performance lorsqu'il est quantifié en Int4. Par ailleurs, nous avons rendu notre code d'entraînement (https://github.com/FlagOpen/FlagScale) et les poids des modèles (https://github.com/FlagAI-Open/Aquila2) accessibles au public pour soutenir la recherche continue et le développement d'applications.
English
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.

Summary

AI-Generated Summary

PDF152November 28, 2024