ChatPaper.aiChatPaper

TPI-LLM : Servir efficacement des LLM à l'échelle de 70 milliards sur des appareils Edge à ressources limitées

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

October 1, 2024
Auteurs: Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu
cs.AI

Résumé

L'inférence de grands modèles se déplace du cloud vers le edge en raison des préoccupations concernant la confidentialité des données d'interaction des utilisateurs. Cependant, les appareils edge rencontrent souvent des difficultés liées à la puissance de calcul limitée, à la mémoire et à la bande passante, nécessitant une collaboration entre plusieurs appareils pour exécuter et accélérer l'inférence des LLM. Le parallélisme de pipeline, solution courante, est inefficace pour les scénarios à utilisateur unique, tandis que le parallélisme de tenseur rencontre des difficultés liées aux communications fréquentes. Dans cet article, nous soutenons que le parallélisme de tenseur peut être plus efficace que le pipeline sur des appareils à ressources limitées, et présentons un système d'inférence parallèle de tenseur, nommé TPI-LLM, efficace en calcul et en mémoire, pour servir des modèles à l'échelle de 70 milliards. TPI-LLM garde les données brutes sensibles locales sur les appareils des utilisateurs et introduit un ordonnanceur de mémoire à fenêtre glissante pour gérer dynamiquement les poids des couches pendant l'inférence, avec un chevauchement de la latence d'E/S disque avec le calcul et la communication. Cela permet aux plus grands modèles de s'exécuter en douceur sur des appareils à mémoire limitée. Nous analysons le goulot d'étranglement de la communication et constatons que la latence du lien, et non la bande passante, émerge comme le principal problème, donc un algorithme de réduction globale basé sur une étoile est mis en œuvre. À travers des expériences approfondies sur des bancs d'essai émulés et réels, TPI-LLM a démontré plus de 80 % de temps en moins jusqu'au premier jeton et de latence de jeton par rapport à Accelerate, et plus de 90 % par rapport à Transformers et Galaxy, tout en réduisant l'empreinte mémoire maximale de Llama 2-70B de 90 %, ne nécessitant que 3,1 Go de mémoire pour des modèles à l'échelle de 70 milliards.
English
Large model inference is shifting from cloud to edge due to concerns about the privacy of user interaction data. However, edge devices often struggle with limited computing power, memory, and bandwidth, requiring collaboration across multiple devices to run and speed up LLM inference. Pipeline parallelism, the mainstream solution, is inefficient for single-user scenarios, while tensor parallelism struggles with frequent communications. In this paper, we argue that tensor parallelism can be more effective than pipeline on low-resource devices, and present a compute- and memory-efficient tensor parallel inference system, named TPI-LLM, to serve 70B-scale models. TPI-LLM keeps sensitive raw data local in the users' devices and introduces a sliding window memory scheduler to dynamically manage layer weights during inference, with disk I/O latency overlapped with the computation and communication. This allows larger models to run smoothly on memory-limited devices. We analyze the communication bottleneck and find that link latency, not bandwidth, emerges as the main issue, so a star-based allreduce algorithm is implemented. Through extensive experiments on both emulated and real testbeds, TPI-LLM demonstrated over 80% less time-to-first-token and token latency compared to Accelerate, and over 90% compared to Transformers and Galaxy, while cutting the peak memory footprint of Llama 2-70B by 90%, requiring only 3.1 GB of memory for 70B-scale models.

Summary

AI-Generated Summary

PDF338November 13, 2024