La adición es todo lo que necesitas para modelos de lenguaje eficientes en energía.

Resumen

Las grandes redes neuronales dedican la mayor parte de la computación a las multiplicaciones de tensores de punto flotante. En este trabajo, descubrimos que un multiplicador de punto flotante puede aproximarse con un sumador de enteros de alta precisión. Proponemos el algoritmo de multiplicación de complejidad lineal L-Mul que aproxima la multiplicación de números de punto flotante con operaciones de suma de enteros. El nuevo algoritmo requiere significativamente menos recursos computacionales que la multiplicación de punto flotante de 8 bits, pero logra una mayor precisión. En comparación con las multiplicaciones de punto flotante de 8 bits, el método propuesto alcanza una mayor precisión pero consume considerablemente menos recursos computacionales a nivel de bits. Dado que la multiplicación de números de punto flotante requiere considerablemente más energía en comparación con las operaciones de suma de enteros, la aplicación de la operación L-Mul en hardware de procesamiento de tensores puede potencialmente reducir el costo energético en un 95% en las multiplicaciones de tensores de punto flotante a nivel de elementos y en un 80% en los productos escalares. Calculamos la expectativa de error teórico de L-Mul, y evaluamos el algoritmo en una amplia gama de tareas textuales, visuales y simbólicas, incluyendo comprensión del lenguaje natural, razonamiento estructural, matemáticas y respuestas a preguntas de sentido común. Nuestros experimentos de análisis numérico concuerdan con la estimación teórica del error, lo que indica que L-Mul con una mantisa de 4 bits logra una precisión comparable a las multiplicaciones float8_e4m3, y L-Mul con una mantisa de 3 bits supera a float8_e5m2. Los resultados de evaluación en benchmarks populares muestran que aplicar directamente L-Mul al mecanismo de atención es casi sin pérdidas. Además, demostramos que reemplazar todas las multiplicaciones de punto flotante con L-Mul de 3 bits de mantisa en un modelo transformer logra una precisión equivalente a utilizar float8_e4m3 como precisión de acumulación tanto en el ajuste fino como en la inferencia.

English

Large neural networks spend most computation on floating point tensor multiplications. In this work, we find that a floating point multiplier can be approximated by one integer adder with high precision. We propose the linear-complexity multiplication L-Mul algorithm that approximates floating point number multiplication with integer addition operations. The new algorithm costs significantly less computation resource than 8-bit floating point multiplication but achieves higher precision. Compared to 8-bit floating point multiplications, the proposed method achieves higher precision but consumes significantly less bit-level computation. Since multiplying floating point numbers requires substantially higher energy compared to integer addition operations, applying the L-Mul operation in tensor processing hardware can potentially reduce 95% energy cost by element-wise floating point tensor multiplications and 80% energy cost of dot products. We calculated the theoretical error expectation of L-Mul, and evaluated the algorithm on a wide range of textual, visual, and symbolic tasks, including natural language understanding, structural reasoning, mathematics, and commonsense question answering. Our numerical analysis experiments agree with the theoretical error estimation, which indicates that L-Mul with 4-bit mantissa achieves comparable precision as float8_e4m3 multiplications, and L-Mul with 3-bit mantissa outperforms float8_e5m2. Evaluation results on popular benchmarks show that directly applying L-Mul to the attention mechanism is almost lossless. We further show that replacing all floating point multiplications with 3-bit mantissa L-Mul in a transformer model achieves equivalent precision as using float8_e4m3 as accumulation precision in both fine-tuning and inference.

La adición es todo lo que necesitas para modelos de lenguaje eficientes en energía.

Addition is All You Need for Energy-efficient Language Models

Resumen

Support