ChatPaper.aiChatPaper

Une méthode parallèle dynamique pour l'optimisation des performances sur des processeurs hybrides

A dynamic parallel method for performance optimization on hybrid CPUs

November 29, 2024
Auteurs: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI

Résumé

Le concept de l'AIPC gagne en popularité, et de plus en plus de CPU hybrides exécuteront des modèles d'IA sur les appareils clients. Cependant, le cadre actuel d'inférence en IA néglige la capacité matérielle déséquilibrée des CPU hybrides, ce qui entraîne des performances d'inférence faibles. Pour résoudre ce problème, nous avons introduit une méthode parallèle dynamique pour les CPU hybrides, qui augmente significativement les performances d'inférence LLM en équilibrant la charge de travail pour chaque cœur d'un CPU hybride avant le début du travail parallèle. Cette méthode a permis à Neural Speed d'atteindre plus de 90 % (en moyenne) de la bande passante mémoire sur deux CPU hybrides Intel.
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be running AI models on client devices. However, the current AI inference framework overlooks the imbalanced hardware capability of hybrid CPUs, leading to low inference performance. To address this issue, we have introduced a dynamic parallel method for hybrid CPUs, which significantly increases LLM inference performance by balancing the workload for each core of a hybrid CPU before the parallel work starts. This method has enabled Neural Speed to achieve more than 90% (on average) of memory bandwidth on two hybrid Intel CPUs.

Summary

AI-Generated Summary

PDF52December 4, 2024