La adición es todo lo que necesitas para modelos de lenguaje eficientes en energía.
Addition is All You Need for Energy-efficient Language Models
October 1, 2024
Autores: Hongyin Luo, Wei Sun
cs.AI
Resumen
Las grandes redes neuronales dedican la mayor parte de la computación a las multiplicaciones de tensores de punto flotante. En este trabajo, descubrimos que un multiplicador de punto flotante puede aproximarse con un sumador de enteros de alta precisión. Proponemos el algoritmo de multiplicación de complejidad lineal L-Mul que aproxima la multiplicación de números de punto flotante con operaciones de suma de enteros. El nuevo algoritmo requiere significativamente menos recursos computacionales que la multiplicación de punto flotante de 8 bits, pero logra una mayor precisión. En comparación con las multiplicaciones de punto flotante de 8 bits, el método propuesto alcanza una mayor precisión pero consume considerablemente menos recursos computacionales a nivel de bits. Dado que la multiplicación de números de punto flotante requiere considerablemente más energía en comparación con las operaciones de suma de enteros, la aplicación de la operación L-Mul en hardware de procesamiento de tensores puede potencialmente reducir el costo energético en un 95% en las multiplicaciones de tensores de punto flotante a nivel de elementos y en un 80% en los productos escalares. Calculamos la expectativa de error teórico de L-Mul, y evaluamos el algoritmo en una amplia gama de tareas textuales, visuales y simbólicas, incluyendo comprensión del lenguaje natural, razonamiento estructural, matemáticas y respuestas a preguntas de sentido común. Nuestros experimentos de análisis numérico concuerdan con la estimación teórica del error, lo que indica que L-Mul con una mantisa de 4 bits logra una precisión comparable a las multiplicaciones float8_e4m3, y L-Mul con una mantisa de 3 bits supera a float8_e5m2. Los resultados de evaluación en benchmarks populares muestran que aplicar directamente L-Mul al mecanismo de atención es casi sin pérdidas. Además, demostramos que reemplazar todas las multiplicaciones de punto flotante con L-Mul de 3 bits de mantisa en un modelo transformer logra una precisión equivalente a utilizar float8_e4m3 como precisión de acumulación tanto en el ajuste fino como en la inferencia.
English
Large neural networks spend most computation on floating point tensor
multiplications. In this work, we find that a floating point multiplier can be
approximated by one integer adder with high precision. We propose the
linear-complexity multiplication L-Mul algorithm that approximates floating
point number multiplication with integer addition operations. The new algorithm
costs significantly less computation resource than 8-bit floating point
multiplication but achieves higher precision. Compared to 8-bit floating point
multiplications, the proposed method achieves higher precision but consumes
significantly less bit-level computation. Since multiplying floating point
numbers requires substantially higher energy compared to integer addition
operations, applying the L-Mul operation in tensor processing hardware can
potentially reduce 95% energy cost by element-wise floating point tensor
multiplications and 80% energy cost of dot products. We calculated the
theoretical error expectation of L-Mul, and evaluated the algorithm on a wide
range of textual, visual, and symbolic tasks, including natural language
understanding, structural reasoning, mathematics, and commonsense question
answering. Our numerical analysis experiments agree with the theoretical error
estimation, which indicates that L-Mul with 4-bit mantissa achieves comparable
precision as float8_e4m3 multiplications, and L-Mul with 3-bit mantissa
outperforms float8_e5m2. Evaluation results on popular benchmarks show that
directly applying L-Mul to the attention mechanism is almost lossless. We
further show that replacing all floating point multiplications with 3-bit
mantissa L-Mul in a transformer model achieves equivalent precision as using
float8_e4m3 as accumulation precision in both fine-tuning and inference.Summary
AI-Generated Summary