ChatPaper.aiChatPaper

Informe Técnico de Aquila2

Aquila2 Technical Report

August 14, 2024
Autores: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI

Resumen

Este documento presenta la serie Aquila2, que comprende una amplia gama de modelos bilingües con tamaños de parámetros de 7, 34 y 70 mil millones. Estos modelos se entrenan en base a un marco innovador llamado HeuriMentor (HM), que ofrece información en tiempo real sobre la convergencia del modelo y mejora el proceso de entrenamiento y la gestión de datos. El Sistema HM, que incluye el Motor de Entrenamiento Adaptativo (ATE), el Monitor de Estado de Entrenamiento (TSM) y la Unidad de Gestión de Datos (DMU), permite monitorear con precisión el progreso del entrenamiento del modelo y facilita la optimización eficiente de la distribución de datos, mejorando así la efectividad del entrenamiento. Evaluaciones exhaustivas muestran que la serie de modelos Aquila2 tiene un rendimiento comparable en los benchmarks en inglés y chino. Específicamente, Aquila2-34B solo muestra una ligera disminución en el rendimiento al cuantificar a Int4. Además, hemos puesto a disposición públicamente nuestro código de entrenamiento (https://github.com/FlagOpen/FlagScale) y los pesos del modelo (https://github.com/FlagAI-Open/Aquila2) para apoyar la investigación en curso y el desarrollo de aplicaciones.
English
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.

Summary

AI-Generated Summary

PDF152November 28, 2024