ChatPaper.aiChatPaper

Technischer Bericht Aquila2

Aquila2 Technical Report

August 14, 2024
Autoren: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI

Zusammenfassung

Dieses Paper stellt die Aquila2-Serie vor, die eine breite Palette von zweisprachigen Modellen mit Parametergrößen von 7, 34 und 70 Milliarden umfasst. Diese Modelle werden auf Basis eines innovativen Frameworks namens HeuriMentor (HM) trainiert, das Echtzeiteinblicke in die Konvergenz des Modells bietet und den Schulungsprozess sowie das Datenmanagement verbessert. Das HM-System, bestehend aus dem Adaptiven Trainingsmotor (ATE), dem Schulungszustandsmonitor (TSM) und der Datenverwaltungseinheit (DMU), ermöglicht eine präzise Überwachung des Schulungsfortschritts des Modells und ermöglicht eine effiziente Optimierung der Datenaufteilung, wodurch die Schulungseffektivität verbessert wird. Umfangreiche Bewertungen zeigen, dass die Aquila2-Modellserie sowohl auf englischen als auch chinesischen Benchmarks vergleichsweise gut abschneidet. Insbesondere zeigt Aquila2-34B nur eine leichte Leistungsminderung, wenn es auf Int4 quantisiert wird. Darüber hinaus haben wir unseren Schulungscode (https://github.com/FlagOpen/FlagScale) und Modellgewichte (https://github.com/FlagAI-Open/Aquila2) öffentlich zugänglich gemacht, um laufende Forschung und die Entwicklung von Anwendungen zu unterstützen.
English
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.

Summary

AI-Generated Summary

PDF152November 28, 2024