Um método paralelo dinâmico para otimização de desempenho em CPUs híbridas
A dynamic parallel method for performance optimization on hybrid CPUs
November 29, 2024
Autores: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI
Resumo
O conceito de AIPC está ganhando popularidade e cada vez mais CPUs híbridas executarão modelos de IA em dispositivos clientes. No entanto, o atual framework de inferência de IA negligencia a capacidade de hardware desequilibrada das CPUs híbridas, resultando em baixo desempenho de inferência. Para lidar com esse problema, introduzimos um método dinâmico de paralelismo para CPUs híbridas, que aumenta significativamente o desempenho de inferência do LLM ao equilibrar a carga de trabalho para cada núcleo de uma CPU híbrida antes do início do trabalho em paralelo. Esse método permitiu que o Neural Speed alcançasse mais de 90% (em média) da largura de banda de memória em dois CPUs híbridos da Intel.
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be
running AI models on client devices. However, the current AI inference
framework overlooks the imbalanced hardware capability of hybrid CPUs, leading
to low inference performance. To address this issue, we have introduced a
dynamic parallel method for hybrid CPUs, which significantly increases LLM
inference performance by balancing the workload for each core of a hybrid CPU
before the parallel work starts. This method has enabled Neural Speed to
achieve more than 90% (on average) of memory bandwidth on two hybrid Intel
CPUs.Summary
AI-Generated Summary