ChatPaper.aiChatPaper

Relatório Técnico Aquila2

Aquila2 Technical Report

August 14, 2024
Autores: Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu
cs.AI

Resumo

Este artigo apresenta a série Aquila2, que compreende uma ampla gama de modelos bilíngues com tamanhos de parâmetros de 7, 34 e 70 bilhões. Esses modelos são treinados com base em uma estrutura inovadora chamada HeuriMentor (HM), que oferece insights em tempo real sobre a convergência do modelo e aprimora o processo de treinamento e gerenciamento de dados. O Sistema HM, composto pelo Motor de Treinamento Adaptativo (ATE), Monitor de Estado de Treinamento (TSM) e Unidade de Gerenciamento de Dados (DMU), permite o monitoramento preciso do progresso de treinamento do modelo e possibilita a otimização eficiente da distribuição de dados, melhorando assim a eficácia do treinamento. Avaliações extensas mostram que a série de modelos Aquila2 tem um desempenho comparativamente bom tanto em benchmarks em inglês quanto em chinês. Especificamente, Aquila2-34B demonstra apenas uma leve diminuição no desempenho quando quantizado para Int4. Além disso, disponibilizamos publicamente nosso código de treinamento (https://github.com/FlagOpen/FlagScale) e pesos do modelo (https://github.com/FlagAI-Open/Aquila2) para apoiar pesquisas em andamento e o desenvolvimento de aplicações.
English
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.

Summary

AI-Generated Summary

PDF152November 28, 2024