ChatPaper.aiChatPaper

Rapporto Tecnico Aquila2

Aquila2 Technical Report

August 14, 2024
Autori: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI

Abstract

Questo articolo introduce la serie Aquila2, che comprende una vasta gamma di modelli bilingui con dimensioni di parametri di 7, 34 e 70 miliardi. Questi modelli sono addestrati basandosi su un framework innovativo denominato HeuriMentor (HM), che offre approfondimenti in tempo reale sulla convergenza del modello e migliora il processo di addestramento e la gestione dei dati. Il Sistema HM, composto dal Motore di Addestramento Adattivo (Adaptive Training Engine, ATE), dal Monitor dello Stato di Addestramento (Training State Monitor, TSM) e dall'Unità di Gestione dei Dati (Data Management Unit, DMU), consente un monitoraggio preciso dei progressi di addestramento del modello e permette un'ottimizzazione efficiente della distribuzione dei dati, migliorando così l'efficacia dell'addestramento. Valutazioni estensive dimostrano che la serie di modelli Aquila2 performa in modo comparabile su benchmark sia in inglese che in cinese. In particolare, Aquila2-34B mostra solo una leggera diminuzione delle prestazioni quando quantizzato a Int4. Inoltre, abbiamo reso pubblicamente disponibile il nostro codice di addestramento (https://github.com/FlagOpen/FlagScale) e i pesi del modello (https://github.com/FlagAI-Open/Aquila2) per supportare la ricerca in corso e lo sviluppo di applicazioni.
English
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.
PDF152November 28, 2024