Laag-precisie training van grote taalmodelen: methoden, uitdagingen en mogelijkheden

Samenvatting

Grote taalmodellen (LLMs) hebben indrukwekkende prestaties geleverd in verschillende domeinen. De aanzienlijke hardwarebronnen die nodig zijn voor hun training vormen echter een belangrijke belemmering voor efficiëntie en schaalbaarheid. Om deze uitdaging te mitigeren, zijn technieken voor training met lage precisie breed toegepast, wat heeft geleid tot aanzienlijke vooruitgang in trainings efficiëntie. Ondanks deze verbeteringen omvat training met lage precisie verschillende componenten—zoals gewichten, activaties en gradienten—die elk in verschillende numerieke formaten kunnen worden weergegeven. De resulterende diversiteit heeft een gefragmenteerd landschap gecreëerd in het onderzoek naar training met lage precisie, waardoor het voor onderzoekers moeilijk is om een overkoepelend overzicht van het veld te krijgen. Dit overzicht biedt een uitgebreide evaluatie van bestaande methoden voor training met lage precisie. Om deze benaderingen systematisch te organiseren, categoriseren we ze in drie primaire groepen op basis van hun onderliggende numerieke formaten, wat een sleutelfactor is die hardwarecompatibiliteit, computationele efficiëntie en het gemak van referentie voor lezers beïnvloedt. De categorieën zijn: (1) methoden gebaseerd op vaste komma en gehele getallen, (2) methoden gebaseerd op zwevendekommagetallen, en (3) methoden gebaseerd op aangepaste formaten. Daarnaast bespreken we benaderingen voor kwantisatiebewuste training, die belangrijke overeenkomsten vertonen met training met lage precisie tijdens voorwaartse propagatie. Tot slot belichten we verschillende veelbelovende onderzoeksrichtingen om dit veld verder te ontwikkelen. Een verzameling van de in dit overzicht besproken artikelen is beschikbaar op https://github.com/Hao840/Awesome-Low-Precision-Training.

English

Large language models (LLMs) have achieved impressive performance across various domains. However, the substantial hardware resources required for their training present a significant barrier to efficiency and scalability. To mitigate this challenge, low-precision training techniques have been widely adopted, leading to notable advancements in training efficiency. Despite these gains, low-precision training involves several componentsx2013such as weights, activations, and gradientsx2013each of which can be represented in different numerical formats. The resulting diversity has created a fragmented landscape in low-precision training research, making it difficult for researchers to gain a unified overview of the field. This survey provides a comprehensive review of existing low-precision training methods. To systematically organize these approaches, we categorize them into three primary groups based on their underlying numerical formats, which is a key factor influencing hardware compatibility, computational efficiency, and ease of reference for readers. The categories are: (1) fixed-point and integer-based methods, (2) floating-point-based methods, and (3) customized format-based methods. Additionally, we discuss quantization-aware training approaches, which share key similarities with low-precision training during forward propagation. Finally, we highlight several promising research directions to advance this field. A collection of papers discussed in this survey is provided in https://github.com/Hao840/Awesome-Low-Precision-Training.

Laag-precisie training van grote taalmodelen: methoden, uitdagingen en mogelijkheden

Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities

Samenvatting

Support