ChatPaper.aiChatPaper

Eine dynamische parallele Methode zur Leistungsoptimierung auf hybriden CPUs.

A dynamic parallel method for performance optimization on hybrid CPUs

November 29, 2024
Autoren: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI

Zusammenfassung

Das AIPC-Konzept gewinnt an Popularität, und immer mehr Hybrid-CPUs werden KI-Modelle auf Client-Geräten ausführen. Allerdings vernachlässigt das aktuelle KI-Inferenz-Framework die unausgeglichenen Hardware-Fähigkeiten von Hybrid-CPUs, was zu einer geringen Inferenzleistung führt. Um dieses Problem zu lösen, haben wir eine dynamische parallele Methode für Hybrid-CPUs eingeführt, die die Inferenzleistung von LLM signifikant erhöht, indem die Arbeitslast für jeden Kern einer Hybrid-CPU vor Beginn der parallelen Arbeit ausgeglichen wird. Diese Methode hat es Neural Speed ermöglicht, mehr als 90 % (im Durchschnitt) des Speicherbandbreite auf zwei Hybrid-Intel-CPUs zu erreichen.
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be running AI models on client devices. However, the current AI inference framework overlooks the imbalanced hardware capability of hybrid CPUs, leading to low inference performance. To address this issue, we have introduced a dynamic parallel method for hybrid CPUs, which significantly increases LLM inference performance by balancing the workload for each core of a hybrid CPU before the parallel work starts. This method has enabled Neural Speed to achieve more than 90% (on average) of memory bandwidth on two hybrid Intel CPUs.

Summary

AI-Generated Summary

PDF52December 4, 2024