ChatPaper.aiChatPaper

Низкоточное обучение крупных языковых моделей: методы, проблемы и перспективы

Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities

May 2, 2025
Авторы: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Guoxia Wang, Dianhai Yu, Yonggang Wen, Dacheng Tao
cs.AI

Аннотация

Крупные языковые модели (LLMs) демонстрируют впечатляющие результаты в различных областях. Однако значительные аппаратные ресурсы, необходимые для их обучения, представляют собой серьезное препятствие для повышения эффективности и масштабируемости. Для решения этой проблемы широко применяются методы обучения с низкой точностью, что привело к заметным улучшениям в эффективности обучения. Несмотря на эти достижения, обучение с низкой точностью включает несколько компонентов — такие как веса, активации и градиенты, — каждый из которых может быть представлен в различных числовых форматах. Это разнообразие создало фрагментированную картину в исследованиях обучения с низкой точностью, затрудняя для исследователей получение единого обзора области. Данный обзор представляет собой всесторонний анализ существующих методов обучения с низкой точностью. Для систематизации этих подходов мы классифицируем их на три основные группы в зависимости от используемых числовых форматов, что является ключевым фактором, влияющим на совместимость с аппаратным обеспечением, вычислительную эффективность и удобство для читателей. Категории включают: (1) методы, основанные на фиксированной точке и целых числах, (2) методы, основанные на числах с плавающей точкой, и (3) методы, использующие специализированные форматы. Кроме того, мы обсуждаем подходы к обучению с учетом квантования, которые имеют ключевые сходства с обучением с низкой точностью в процессе прямого распространения. Наконец, мы выделяем несколько перспективных направлений исследований для дальнейшего развития этой области. Сборник статей, рассмотренных в данном обзоре, доступен по ссылке: https://github.com/Hao840/Awesome-Low-Precision-Training.
English
Large language models (LLMs) have achieved impressive performance across various domains. However, the substantial hardware resources required for their training present a significant barrier to efficiency and scalability. To mitigate this challenge, low-precision training techniques have been widely adopted, leading to notable advancements in training efficiency. Despite these gains, low-precision training involves several componentsx2013such as weights, activations, and gradientsx2013each of which can be represented in different numerical formats. The resulting diversity has created a fragmented landscape in low-precision training research, making it difficult for researchers to gain a unified overview of the field. This survey provides a comprehensive review of existing low-precision training methods. To systematically organize these approaches, we categorize them into three primary groups based on their underlying numerical formats, which is a key factor influencing hardware compatibility, computational efficiency, and ease of reference for readers. The categories are: (1) fixed-point and integer-based methods, (2) floating-point-based methods, and (3) customized format-based methods. Additionally, we discuss quantization-aware training approaches, which share key similarities with low-precision training during forward propagation. Finally, we highlight several promising research directions to advance this field. A collection of papers discussed in this survey is provided in https://github.com/Hao840/Awesome-Low-Precision-Training.

Summary

AI-Generated Summary

PDF91May 6, 2025