TPI-LLM: Servire efficientemente LLM su scala 70 miliardi su dispositivi edge a bassa risorsa

Abstract

L'elaborazione delle grandi modelli si sta spostando dal cloud al bordo a causa delle preoccupazioni sulla privacy dei dati di interazione degli utenti. Tuttavia, i dispositivi edge spesso faticano con limitata potenza di calcolo, memoria e larghezza di banda, richiedendo la collaborazione tra più dispositivi per eseguire e velocizzare l'inferenza dei grandi modelli linguaggio (LLM). Il parallelismo di pipeline, la soluzione più diffusa, è inefficiente per scenari con un singolo utente, mentre il parallelismo di tensori lotta con le frequenti comunicazioni. In questo articolo, sosteniamo che il parallelismo di tensori può essere più efficace della pipeline su dispositivi con risorse limitate e presentiamo un sistema di inferenza parallelo di tensori efficiente dal punto di vista computazionale e di memoria, chiamato TPI-LLM, per gestire modelli su scala di 70 miliardi di parametri. TPI-LLM mantiene i dati grezzi sensibili locali nei dispositivi degli utenti e introduce un programmatore di memoria a finestra scorrevole per gestire dinamicamente i pesi dei layer durante l'inferenza, sovrapponendo la latenza di I/O del disco con il calcolo e la comunicazione. Ciò consente ai modelli più grandi di funzionare senza intoppi su dispositivi con memoria limitata. Analizziamo il collo di bottiglia della comunicazione e scopriamo che la latenza del collegamento, non la larghezza di banda, emerge come il problema principale, quindi viene implementato un algoritmo di allreduce a stella. Attraverso estesi esperimenti su entrambi i testbed emulati e reali, TPI-LLM ha dimostrato un tempo fino al primo token e una latenza del token di oltre l'80% inferiori rispetto ad Accelerate e oltre il 90% rispetto a Transformers e Galaxy, riducendo nel contempo l'impronta di memoria massima di Llama 2-70 miliardi di parametri del 90%, richiedendo solo 3,1 GB di memoria per modelli su scala di 70 miliardi di parametri.

English

Large model inference is shifting from cloud to edge due to concerns about the privacy of user interaction data. However, edge devices often struggle with limited computing power, memory, and bandwidth, requiring collaboration across multiple devices to run and speed up LLM inference. Pipeline parallelism, the mainstream solution, is inefficient for single-user scenarios, while tensor parallelism struggles with frequent communications. In this paper, we argue that tensor parallelism can be more effective than pipeline on low-resource devices, and present a compute- and memory-efficient tensor parallel inference system, named TPI-LLM, to serve 70B-scale models. TPI-LLM keeps sensitive raw data local in the users' devices and introduces a sliding window memory scheduler to dynamically manage layer weights during inference, with disk I/O latency overlapped with the computation and communication. This allows larger models to run smoothly on memory-limited devices. We analyze the communication bottleneck and find that link latency, not bandwidth, emerges as the main issue, so a star-based allreduce algorithm is implemented. Through extensive experiments on both emulated and real testbeds, TPI-LLM demonstrated over 80% less time-to-first-token and token latency compared to Accelerate, and over 90% compared to Transformers and Galaxy, while cutting the peak memory footprint of Llama 2-70B by 90%, requiring only 3.1 GB of memory for 70B-scale models.

TPI-LLM: Servire efficientemente LLM su scala 70 miliardi su dispositivi edge a bassa risorsa

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

Abstract

Support