ChatPaper.aiChatPaper

아퀼라2 기술 보고서

Aquila2 Technical Report

August 14, 2024
저자: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI

초록

본 논문은 70, 34 및 7 억 개의 매개변수 크기를 갖는 다양한 이중 모델로 구성된 Aquila2 시리즈를 소개합니다. 이러한 모델들은 HeuriMentor (HM)이라는 혁신적인 프레임워크를 기반으로 훈련되었으며, 이는 모델 수렴에 대한 실시간 통찰력을 제공하고 훈련 과정 및 데이터 관리를 강화합니다. 적응형 훈련 엔진 (ATE), 훈련 상태 모니터 (TSM) 및 데이터 관리 유닛 (DMU)으로 구성된 HM 시스템은 모델의 훈련 진행 상황을 정밀하게 모니터링하고 데이터 분배의 효율적 최적화를 가능케 하여 훈련 효과를 향상시킵니다. 포괄적인 평가 결과, Aquila2 모델 시리즈가 영어 및 중국어 벤치마크에서 모두 우수한 성능을 보임을 보여줍니다. 특히, Aquila2-34B는 Int4로 양자화될 때 성능이 약간 감소하는 것만 보입니다. 더불어, 계속되는 연구 및 응용 프로그램 개발을 지원하기 위해 훈련 코드(https://github.com/FlagOpen/FlagScale)와 모델 가중치(https://github.com/FlagAI-Open/Aquila2)를 공개로 제공하였습니다.
English
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.

Summary

AI-Generated Summary

PDF152November 28, 2024