Un método paralelo dinámico para optimización del rendimiento en CPUs híbridas
A dynamic parallel method for performance optimization on hybrid CPUs
November 29, 2024
Autores: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI
Resumen
El concepto de AIPC está ganando popularidad, y cada vez más CPUs híbridas ejecutarán modelos de IA en dispositivos cliente. Sin embargo, el marco actual de inferencia de IA pasa por alto la capacidad desequilibrada de hardware de las CPUs híbridas, lo que resulta en un bajo rendimiento de inferencia. Para abordar este problema, hemos introducido un método paralelo dinámico para CPUs híbridas, que aumenta significativamente el rendimiento de inferencia de LLM al equilibrar la carga de trabajo para cada núcleo de una CPU híbrida antes de que comience el trabajo en paralelo. Este método ha permitido que Neural Speed alcance más del 90% (en promedio) del ancho de banda de memoria en dos CPUs híbridas de Intel.
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be
running AI models on client devices. However, the current AI inference
framework overlooks the imbalanced hardware capability of hybrid CPUs, leading
to low inference performance. To address this issue, we have introduced a
dynamic parallel method for hybrid CPUs, which significantly increases LLM
inference performance by balancing the workload for each core of a hybrid CPU
before the parallel work starts. This method has enabled Neural Speed to
achieve more than 90% (on average) of memory bandwidth on two hybrid Intel
CPUs.Summary
AI-Generated Summary