Сложение - все, что вам нужно для энергоэффективных языковых моделейAddition is All You Need for Energy-efficient Language Models
Большие нейронные сети тратят большую часть вычислений на умножения тензоров с плавающей запятой. В данной работе мы обнаружили, что умножитель с плавающей запятой может быть аппроксимирован одним целочисленным сумматором с высокой точностью. Мы предлагаем алгоритм линейной сложности умножения L-Mul, который аппроксимирует умножение чисел с плавающей запятой операциями целочисленного сложения. Новый алгоритм требует значительно меньше ресурсов вычислений, чем умножение чисел с плавающей запятой на 8 бит, но достигает более высокой точности. По сравнению с умножениями чисел с плавающей запятой на 8 бит, предложенный метод обеспечивает более высокую точность, но требует значительно меньше вычислений на уровне битов. Поскольку умножение чисел с плавающей запятой требует существенно больше энергии по сравнению с операциями целочисленного сложения, применение операции L-Mul в аппаратуре обработки тензоров может потенциально снизить затраты на энергию на 95% при поэлементных умножениях тензоров с плавающей запятой и на 80% при скалярных произведениях. Мы рассчитали теоретическое ожидание ошибки L-Mul и оценили алгоритм на широком спектре текстовых, визуальных и символьных задач, включая понимание естественного языка, структурное мышление, математику и ответы на вопросы здравого смысла. Наши численные эксперименты согласуются с теоретической оценкой ошибки, что указывает на то, что L-Mul с мантиссой 4 бита достигает сравнимой точности с умножениями float8_e4m3, а L-Mul с мантиссой 3 бита превосходит float8_e5m2. Результаты оценки на популярных бенчмарках показывают, что применение L-Mul к механизму внимания практически не приводит к потерям. Мы также показываем, что замена всех умножений чисел с плавающей запятой на L-Mul с мантиссой 3 бита в модели трансформера обеспечивает эквивалентную точность при использовании float8_e4m3 в качестве точности накопления как при донастройке, так и при выводе.