Aquila2 Technisch Rapport
Aquila2 Technical Report
August 14, 2024
Auteurs: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI
Samenvatting
Dit artikel introduceert de Aquila2-serie, die bestaat uit een breed scala aan tweetalige modellen met parameterformaten van 7, 34 en 70 miljard. Deze modellen zijn getraind op basis van een innovatief raamwerk genaamd HeuriMentor (HM), dat real-time inzichten biedt in modelconvergentie en het trainingsproces en databeheer verbetert. Het HM-systeem, bestaande uit de Adaptive Training Engine (ATE), de Training State Monitor (TSM) en de Data Management Unit (DMU), maakt een nauwkeurige monitoring van de trainingsvoortgang van het model mogelijk en stelt efficiënte optimalisatie van dataverdeling in, waardoor de trainingseffectiviteit wordt vergroot. Uitgebreide evaluaties tonen aan dat de Aquila2-modelserie vergelijkbaar goed presteert op zowel Engelse als Chinese benchmarks. Specifiek laat Aquila2-34B slechts een lichte afname in prestaties zien wanneer het wordt gekwantiseerd naar Int4. Bovendien hebben we onze trainingscode (https://github.com/FlagOpen/FlagScale) en modelgewichten (https://github.com/FlagAI-Open/Aquila2) openbaar gemaakt om lopend onderzoek en de ontwikkeling van toepassingen te ondersteunen.
English
This paper introduces the Aquila2 series, which comprises a wide range of
bilingual models with parameter sizes of 7, 34, and 70 billion. These models
are trained based on an innovative framework named HeuriMentor (HM), which
offers real-time insights into model convergence and enhances the training
process and data management. The HM System, comprising the Adaptive Training
Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU),
allows for precise monitoring of the model's training progress and enables
efficient optimization of data distribution, thereby enhancing training
effectiveness. Extensive evaluations show that the Aquila2 model series
performs comparably well on both English and Chinese benchmarks. Specifically,
Aquila2-34B demonstrates only a slight decrease in performance when quantized
to Int4. Furthermore, we have made our training code
(https://github.com/FlagOpen/FlagScale) and model weights
(https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing
research and the development of applications.