ChatPaper.aiChatPaper

Niedrigpräzisionstraining großer Sprachmodelle: Methoden, Herausforderungen und Chancen

Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities

May 2, 2025
Autoren: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Guoxia Wang, Dianhai Yu, Yonggang Wen, Dacheng Tao
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben beeindruckende Leistungen in verschiedenen Bereichen erzielt. Die erheblichen Hardware-Ressourcen, die für ihr Training erforderlich sind, stellen jedoch eine erhebliche Barriere für Effizienz und Skalierbarkeit dar. Um diese Herausforderung zu bewältigen, wurden Techniken für das Training mit niedriger Präzision weit verbreitet eingesetzt, was zu bemerkenswerten Fortschritten in der Trainingseffizienz geführt hat. Trotz dieser Fortschritte umfasst das Training mit niedriger Präzision mehrere Komponenten – wie Gewichte, Aktivierungen und Gradienten –, die jeweils in verschiedenen numerischen Formaten dargestellt werden können. Die daraus resultierende Vielfalt hat eine fragmentierte Landschaft in der Forschung zum Training mit niedriger Präzision geschaffen, was es Forschern erschwert, einen einheitlichen Überblick über das Feld zu gewinnen. Diese Übersichtsarbeit bietet eine umfassende Bewertung bestehender Methoden für das Training mit niedriger Präzision. Um diese Ansätze systematisch zu organisieren, kategorisieren wir sie in drei Hauptgruppen basierend auf ihren zugrunde liegenden numerischen Formaten, was ein Schlüsselfaktor für Hardware-Kompatibilität, Recheneffizienz und die einfache Referenz für Leser ist. Die Kategorien sind: (1) Festkomma- und Ganzzahl-basierte Methoden, (2) Gleitkomma-basierte Methoden und (3) benutzerdefinierte Format-basierte Methoden. Darüber hinaus diskutieren wir Quantisierungsbewusstes Training, das wichtige Ähnlichkeiten mit dem Training mit niedriger Präzision während der Vorwärtsausbreitung aufweist. Schließlich heben wir mehrere vielversprechende Forschungsrichtungen hervor, um dieses Feld voranzutreiben. Eine Sammlung der in dieser Übersichtsarbeit diskutierten Artikel ist unter https://github.com/Hao840/Awesome-Low-Precision-Training verfügbar.
English
Large language models (LLMs) have achieved impressive performance across various domains. However, the substantial hardware resources required for their training present a significant barrier to efficiency and scalability. To mitigate this challenge, low-precision training techniques have been widely adopted, leading to notable advancements in training efficiency. Despite these gains, low-precision training involves several componentsx2013such as weights, activations, and gradientsx2013each of which can be represented in different numerical formats. The resulting diversity has created a fragmented landscape in low-precision training research, making it difficult for researchers to gain a unified overview of the field. This survey provides a comprehensive review of existing low-precision training methods. To systematically organize these approaches, we categorize them into three primary groups based on their underlying numerical formats, which is a key factor influencing hardware compatibility, computational efficiency, and ease of reference for readers. The categories are: (1) fixed-point and integer-based methods, (2) floating-point-based methods, and (3) customized format-based methods. Additionally, we discuss quantization-aware training approaches, which share key similarities with low-precision training during forward propagation. Finally, we highlight several promising research directions to advance this field. A collection of papers discussed in this survey is provided in https://github.com/Hao840/Awesome-Low-Precision-Training.

Summary

AI-Generated Summary

PDF91May 6, 2025