Een dynamische parallelle methode voor prestatieoptimalisatie op hybride CPU's
A dynamic parallel method for performance optimization on hybrid CPUs
November 29, 2024
Auteurs: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI
Samenvatting
Het AIPC-concept wint aan populariteit en steeds meer hybride CPU's zullen AI-modellen uitvoeren op clientapparaten. Echter, het huidige AI-inferentiekader negeert de onevenwichtige hardwarecapaciteit van hybride CPU's, wat leidt tot lage inferentieprestaties. Om dit probleem aan te pakken, hebben we een dynamische parallelle methode geïntroduceerd voor hybride CPU's, die de inferentieprestaties van LLM aanzienlijk verhoogt door de werklast te balanceren voor elke kern van een hybride CPU voordat het parallelle werk begint. Deze methode heeft Neural Speed in staat gesteld om meer dan 90% (gemiddeld) van de geheugenbandbreedte te bereiken op twee hybride Intel CPU's.
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be
running AI models on client devices. However, the current AI inference
framework overlooks the imbalanced hardware capability of hybrid CPUs, leading
to low inference performance. To address this issue, we have introduced a
dynamic parallel method for hybrid CPUs, which significantly increases LLM
inference performance by balancing the workload for each core of a hybrid CPU
before the parallel work starts. This method has enabled Neural Speed to
achieve more than 90% (on average) of memory bandwidth on two hybrid Intel
CPUs.