ChatPaper.aiChatPaper

Динамический параллельный метод для оптимизации производительности на гибридных ЦП.

A dynamic parallel method for performance optimization on hybrid CPUs

November 29, 2024
Авторы: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI

Аннотация

Концепция AIPC становится все более популярной, и все больше гибридных ЦП будут запускать модели ИИ на клиентских устройствах. Однако текущая инференсная рамка ИИ не учитывает дисбаланс аппаратных возможностей гибридных ЦП, что приводит к низкой производительности инференса. Для решения этой проблемы мы представили динамический параллельный метод для гибридных ЦП, который значительно повышает производительность инференса LLM, балансируя нагрузку для каждого ядра гибридного ЦП перед началом параллельной работы. Этот метод позволил Neural Speed достичь более 90% (в среднем) пропускной способности памяти на двух гибридных ЦП Intel.
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be running AI models on client devices. However, the current AI inference framework overlooks the imbalanced hardware capability of hybrid CPUs, leading to low inference performance. To address this issue, we have introduced a dynamic parallel method for hybrid CPUs, which significantly increases LLM inference performance by balancing the workload for each core of a hybrid CPU before the parallel work starts. This method has enabled Neural Speed to achieve more than 90% (on average) of memory bandwidth on two hybrid Intel CPUs.

Summary

AI-Generated Summary

PDF52December 4, 2024