ChatPaper.aiChatPaper

ハイブリッドCPUにおけるパフォーマンス最適化のための動的並列メソッド

A dynamic parallel method for performance optimization on hybrid CPUs

November 29, 2024
著者: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI

要旨

AIPCコンセプトは人気を集めており、ますます多くのハイブリッドCPUがクライアントデバイス上でAIモデルを実行するようになります。しかし、現在のAI推論フレームワークは、ハイブリッドCPUのハードウェア能力の不均衡を見落としており、推論パフォーマンスが低下しています。この問題に対処するために、私たちはハイブリッドCPU向けの動的並列メソッドを導入しました。この方法により、並列作業が開始する前にハイブリッドCPUの各コアの作業量をバランスよく調整することで、LLM推論パフォーマンスが大幅に向上します。この方法により、Neural Speedは、2つのハイブリッドIntel CPUで平均90%以上のメモリ帯域幅を実現しました。
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be running AI models on client devices. However, the current AI inference framework overlooks the imbalanced hardware capability of hybrid CPUs, leading to low inference performance. To address this issue, we have introduced a dynamic parallel method for hybrid CPUs, which significantly increases LLM inference performance by balancing the workload for each core of a hybrid CPU before the parallel work starts. This method has enabled Neural Speed to achieve more than 90% (on average) of memory bandwidth on two hybrid Intel CPUs.
PDF52December 4, 2024