TPI-LLM: Efficiënte bediening van LLM's op een schaal van 70 miljard op edge-apparaten met beperkte middelen
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices
October 1, 2024
Auteurs: Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu
cs.AI
Samenvatting
Het uitvoeren van inferentie met grote modellen verschuift van de cloud naar de edge vanwege zorgen over de privacy van gebruikersinteractiegegevens. Echter, edge-apparaten hebben vaak te maken met beperkte rekenkracht, geheugen en bandbreedte, wat samenwerking over meerdere apparaten vereist om LLM-inferentie uit te voeren en te versnellen. Pijplijnparallelisme, de gangbare oplossing, is inefficiënt voor scenario's met één gebruiker, terwijl tensorparallelisme moeite heeft met frequente communicatie. In dit artikel betogen we dat tensorparallelisme effectiever kan zijn dan pijplijnparallelisme op apparaten met weinig middelen, en presenteren we een reken- en geheugenefficiënt tensornetwerk voor parallelle inferentie, genaamd TPI-LLM, om modellen op schaal van 70B te bedienen. TPI-LLM houdt gevoelige ruwe gegevens lokaal op de apparaten van gebruikers en introduceert een geheugenplanner met schuifvenster om dynamisch de gewichten van lagen te beheren tijdens inferentie, waarbij de latentie van schijf-I/O wordt overlapt met de berekening en communicatie. Dit maakt het mogelijk dat grotere modellen soepel draaien op geheugenbeperkte apparaten. We analyseren de communicatieknelpunten en vinden dat linklatentie, niet bandbreedte, naar voren komt als het belangrijkste probleem, dus wordt een op sterren gebaseerd allreduce-algoritme geïmplementeerd. Door uitgebreide experimenten op zowel geëmuleerde als echte testomgevingen heeft TPI-LLM meer dan 80% minder tijd tot het eerste token en tokenlatentie gedemonstreerd in vergelijking met Accelerate, en meer dan 90% in vergelijking met Transformers en Galaxy, terwijl de piekgeheugenfootprint van Llama 2-70B met 90% wordt verlaagd, waarbij slechts 3,1 GB geheugen nodig is voor modellen op schaal van 70B.
English
Large model inference is shifting from cloud to edge due to concerns about
the privacy of user interaction data. However, edge devices often struggle with
limited computing power, memory, and bandwidth, requiring collaboration across
multiple devices to run and speed up LLM inference. Pipeline parallelism, the
mainstream solution, is inefficient for single-user scenarios, while tensor
parallelism struggles with frequent communications. In this paper, we argue
that tensor parallelism can be more effective than pipeline on low-resource
devices, and present a compute- and memory-efficient tensor parallel inference
system, named TPI-LLM, to serve 70B-scale models. TPI-LLM keeps sensitive raw
data local in the users' devices and introduces a sliding window memory
scheduler to dynamically manage layer weights during inference, with disk I/O
latency overlapped with the computation and communication. This allows larger
models to run smoothly on memory-limited devices. We analyze the communication
bottleneck and find that link latency, not bandwidth, emerges as the main
issue, so a star-based allreduce algorithm is implemented. Through extensive
experiments on both emulated and real testbeds, TPI-LLM demonstrated over 80%
less time-to-first-token and token latency compared to Accelerate, and over 90%
compared to Transformers and Galaxy, while cutting the peak memory footprint of
Llama 2-70B by 90%, requiring only 3.1 GB of memory for 70B-scale models.Summary
AI-Generated Summary