ChatPaper.aiChatPaper

Технический отчет Aquila2

Aquila2 Technical Report

August 14, 2024
Авторы: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI

Аннотация

Эта статья представляет серию Aquila2, которая включает в себя широкий спектр двуязычных моделей с размерами параметров 7, 34 и 70 миллиардов. Эти модели обучены на основе инновационной структуры под названием HeuriMentor (HM), которая предоставляет реальное время в понимании сходимости модели и улучшает процесс обучения и управление данными. Система HM, включающая Адаптивный Обучающий Движок (ATE), Монитор Состояния Обучения (TSM) и Управление Данными (DMU), позволяет точно контролировать прогресс обучения модели и обеспечивает эффективную оптимизацию распределения данных, тем самым улучшая эффективность обучения. Обширные оценки показывают, что серия моделей Aquila2 проявляет себя достаточно хорошо как на английских, так и на китайских бенчмарках. В частности, Aquila2-34B демонстрирует лишь незначительное снижение производительности при квантовании до Int4. Более того, мы сделали наш код обучения (https://github.com/FlagOpen/FlagScale) и веса модели (https://github.com/FlagAI-Open/Aquila2) общедоступными для поддержки текущих исследований и разработки приложений.
English
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.

Summary

AI-Generated Summary

PDF152November 28, 2024