Aquila2技術レポート
Aquila2 Technical Report
August 14, 2024
著者: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI
要旨
本論文では、70億、340億、700億パラメータの多言語モデル群であるAquila2シリーズを紹介する。これらのモデルは、HeuriMentor(HM)と呼ばれる革新的なフレームワークに基づいて訓練されており、モデルの収束状況をリアルタイムで把握し、訓練プロセスとデータ管理を強化する。HMシステムは、Adaptive Training Engine(ATE)、Training State Monitor(TSM)、Data Management Unit(DMU)で構成され、モデルの訓練進捗を精密に監視し、データ分布の効率的な最適化を可能にすることで、訓練効果を向上させる。広範な評価により、Aquila2モデルシリーズが英語と中国語のベンチマークで同等の性能を発揮することが示されている。特に、Aquila2-34BはInt4に量子化しても性能がわずかに低下するのみである。さらに、訓練コード(https://github.com/FlagOpen/FlagScale)とモデル重み(https://github.com/FlagAI-Open/Aquila2)を公開し、継続的な研究とアプリケーション開発を支援している。
English
This paper introduces the Aquila2 series, which comprises a wide range of
bilingual models with parameter sizes of 7, 34, and 70 billion. These models
are trained based on an innovative framework named HeuriMentor (HM), which
offers real-time insights into model convergence and enhances the training
process and data management. The HM System, comprising the Adaptive Training
Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU),
allows for precise monitoring of the model's training progress and enables
efficient optimization of data distribution, thereby enhancing training
effectiveness. Extensive evaluations show that the Aquila2 model series
performs comparably well on both English and Chinese benchmarks. Specifically,
Aquila2-34B demonstrates only a slight decrease in performance when quantized
to Int4. Furthermore, we have made our training code
(https://github.com/FlagOpen/FlagScale) and model weights
(https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing
research and the development of applications.Summary
AI-Generated Summary