ChatPaper.aiChatPaper

Compreendendo os LLMs: Uma Visão Geral Abrangente do Treinamento à Inferência

Understanding LLMs: A Comprehensive Overview from Training to Inference

January 4, 2024
Autores: Yiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge
cs.AI

Resumo

A introdução do ChatGPT levou a um aumento significativo na utilização de Modelos de Linguagem de Grande Escala (LLMs) para abordar tarefas subsequentes. Há um foco crescente em treinamento e implantação de baixo custo nesse contexto. O treinamento e a implantação de LLMs de baixo custo representam a tendência futura de desenvolvimento. Este artigo revisa a evolução das técnicas de treinamento de modelos de linguagem de grande escala e as tecnologias de inferência e implantação alinhadas a essa tendência emergente. A discussão sobre treinamento inclui vários aspectos, como pré-processamento de dados, arquitetura de treinamento, tarefas de pré-treinamento, treinamento paralelo e conteúdo relevante relacionado ao ajuste fino do modelo. No lado da inferência, o artigo aborda tópicos como compressão de modelos, computação paralela, agendamento de memória e otimização estrutural. Também explora a utilização de LLMs e oferece insights sobre seu desenvolvimento futuro.
English
The introduction of ChatGPT has led to a significant increase in the utilization of Large Language Models (LLMs) for addressing downstream tasks. There's an increasing focus on cost-efficient training and deployment within this context. Low-cost training and deployment of LLMs represent the future development trend. This paper reviews the evolution of large language model training techniques and inference deployment technologies aligned with this emerging trend. The discussion on training includes various aspects, including data preprocessing, training architecture, pre-training tasks, parallel training, and relevant content related to model fine-tuning. On the inference side, the paper covers topics such as model compression, parallel computation, memory scheduling, and structural optimization. It also explores LLMs' utilization and provides insights into their future development.
PDF652February 8, 2026