Optellen is alles wat je nodig hebt voor energiezuinige taalmodellen.Addition is All You Need for Energy-efficient Language Models
Grote neurale netwerken besteden het grootste deel van hun berekeningen aan het vermenigvuldigen van zwevende-kommagetensoren. In dit werk vinden we dat een zwevendekommagetalmultiplier kan worden benaderd door één geheelgetalopteller met hoge precisie. We stellen het lineair-complexe vermenigvuldigings L-Mul algoritme voor dat zwevendekommagetallenvermenigvuldiging benadert met gehele opteloperaties. Het nieuwe algoritme vereist aanzienlijk minder rekenbronnen dan 8-bits zwevendekommagetallenvermenigvuldiging, maar behaalt een hogere precisie. Vergeleken met 8-bits zwevendekommagetallenvermenigvuldiging behaalt de voorgestelde methode een hogere precisie, maar verbruikt aanzienlijk minder bitniveau-berekeningen. Omdat het vermenigvuldigen van zwevendekommagetallen aanzienlijk meer energie vereist dan gehele opteloperaties, kan het toepassen van de L-Mul-operatie in tensorverwerkingshardware potentieel 95% energiekosten besparen bij elementgewijze zwevendekommagetensormultiplicaties en 80% energiekosten van dotproducten. We hebben de theoretische foutverwachting van L-Mul berekend en het algoritme geëvalueerd op een breed scala van tekstuele, visuele en symbolische taken, waaronder natuurlijke taalbegrip, structureel redeneren, wiskunde en gezond verstandsvragen beantwoorden. Onze numerieke analyse-experimenten komen overeen met de theoretische foutinschatting, wat aangeeft dat L-Mul met een 4-bits mantisse vergelijkbare precisie behaalt als float8_e4m3-vermenigvuldigingen, en L-Mul met een 3-bits mantisse presteert beter dan float8_e5m2. Evaluatieresultaten op populaire benchmarks tonen aan dat het rechtstreeks toepassen van L-Mul op het aandachtsmechanisme vrijwel verliesloos is. We tonen verder aan dat het vervangen van alle zwevendekommagetallenvermenigvuldigingen door L-Mul met een 3-bits mantisse in een transformermodel een equivalent precisie behaalt als het gebruik van float8_e4m3 als precisie bij accumulatie, zowel bij fine-tuning als inferentie.