L'addition est tout ce dont vous avez besoin pour des modÚles de langage écoénergétiques.Addition is All You Need for Energy-efficient Language Models
Les grands rĂ©seaux neuronaux consacrent la majeure partie de leurs calculs aux multiplications de tenseurs en virgule flottante. Dans ce travail, nous avons dĂ©couvert qu'un multiplicateur en virgule flottante peut ĂȘtre approximĂ© par un simple additionneur entier avec une grande prĂ©cision. Nous proposons l'algorithme de multiplication Ă complexitĂ© linĂ©aire L-Mul qui approxime la multiplication de nombres en virgule flottante avec des opĂ©rations d'addition entiĂšre. Le nouvel algorithme nĂ©cessite considĂ©rablement moins de ressources de calcul que la multiplication en virgule flottante sur 8 bits tout en atteignant une prĂ©cision plus Ă©levĂ©e. ComparĂ© aux multiplications en virgule flottante sur 8 bits, la mĂ©thode proposĂ©e atteint une prĂ©cision supĂ©rieure tout en consommant significativement moins de calcul au niveau des bits. Ătant donnĂ© que la multiplication de nombres en virgule flottante nĂ©cessite une Ă©nergie nettement plus Ă©levĂ©e que les opĂ©rations d'addition entiĂšre, l'application de l'opĂ©ration L-Mul dans le matĂ©riel de traitement de tenseurs peut potentiellement rĂ©duire de 95 % le coĂ»t Ă©nergĂ©tique des multiplications de tenseurs en virgule flottante Ă©lĂ©ment par Ă©lĂ©ment et de 80 % le coĂ»t Ă©nergĂ©tique des produits scalaires. Nous avons calculĂ© l'attente d'erreur thĂ©orique de L-Mul, et Ă©valuĂ© l'algorithme sur une large gamme de tĂąches textuelles, visuelles et symboliques, y compris la comprĂ©hension du langage naturel, le raisonnement structurel, les mathĂ©matiques et la rĂ©ponse Ă des questions de bon sens. Nos expĂ©riences d'analyse numĂ©rique confirment l'estimation d'erreur thĂ©orique, ce qui indique que L-Mul avec une mantisse sur 4 bits atteint une prĂ©cision comparable aux multiplications float8_e4m3, et que L-Mul avec une mantisse sur 3 bits surpasse float8_e5m2. Les rĂ©sultats d'Ă©valuation sur des benchmarks populaires montrent que l'application directe de L-Mul au mĂ©canisme d'attention est presque sans perte. Nous montrons en outre que le remplacement de toutes les multiplications en virgule flottante par L-Mul avec une mantisse sur 3 bits dans un modĂšle de transformateur atteint une prĂ©cision Ă©quivalente Ă celle de l'utilisation de float8_e4m3 en tant que prĂ©cision d'accumulation Ă la fois en affinage et en infĂ©rence.