TPI-LLM: Effiziente Bereitstellung von LLMs im Maßstab von 70 Milliarden auf ressourcenarmen Edge-Geräten

papers.abstract

Die Inferenz großer Modelle verlagert sich von der Cloud an den Rand aufgrund von Bedenken hinsichtlich der Privatsphäre von Benutzerinteraktionsdaten. Randgeräte haben jedoch oft mit begrenzter Rechenleistung, Speicher und Bandbreite zu kämpfen, was eine Zusammenarbeit über mehrere Geräte hinweg erfordert, um die Inferenz großer Modelle zu beschleunigen. Die gängige Lösung, die Pipeline-Parallelität, ist ineffizient für Szenarien mit einem einzelnen Benutzer, während die Tensor-Parallelität mit häufigen Kommunikationen zu kämpfen hat. In diesem Paper argumentieren wir, dass Tensor-Parallelität auf ressourcenarmen Geräten effektiver sein kann als die Pipeline und präsentieren ein rechen- und speichereffizientes Tensor-Parallel-Inferenzsystem namens TPI-LLM, um Modelle im Maßstab von 70 Milliarden zu bedienen. TPI-LLM hält sensible Rohdaten lokal auf den Geräten der Benutzer und führt einen dynamischen Layer-Gewichts-Managementmechanismus mit einem Schiebefenster-Speicherplaner während der Inferenz ein, wobei die Festplatten-E/A-Latenz mit der Berechnung und Kommunikation überlappt wird. Dies ermöglicht es größeren Modellen, reibungslos auf speicherbegrenzten Geräten zu laufen. Wir analysieren das Kommunikationsengpass und stellen fest, dass die Link-Latenz, nicht die Bandbreite, als Hauptproblem auftritt, daher wird ein sternbasiertes Allreduce-Algorithmus implementiert. Durch umfangreiche Experimente sowohl auf emulierten als auch auf realen Testumgebungen zeigte TPI-LLM über 80% weniger Zeit bis zum ersten Token und Token-Latenz im Vergleich zu Accelerate, und über 90% im Vergleich zu Transformers und Galaxy, während der Spitzen-Speicherbedarf von Llama 2-70B um 90% reduziert wurde, wobei nur 3,1 GB Speicher für Modelle im Maßstab von 70 Milliarden benötigt werden.

English

Large model inference is shifting from cloud to edge due to concerns about the privacy of user interaction data. However, edge devices often struggle with limited computing power, memory, and bandwidth, requiring collaboration across multiple devices to run and speed up LLM inference. Pipeline parallelism, the mainstream solution, is inefficient for single-user scenarios, while tensor parallelism struggles with frequent communications. In this paper, we argue that tensor parallelism can be more effective than pipeline on low-resource devices, and present a compute- and memory-efficient tensor parallel inference system, named TPI-LLM, to serve 70B-scale models. TPI-LLM keeps sensitive raw data local in the users' devices and introduces a sliding window memory scheduler to dynamically manage layer weights during inference, with disk I/O latency overlapped with the computation and communication. This allows larger models to run smoothly on memory-limited devices. We analyze the communication bottleneck and find that link latency, not bandwidth, emerges as the main issue, so a star-based allreduce algorithm is implemented. Through extensive experiments on both emulated and real testbeds, TPI-LLM demonstrated over 80% less time-to-first-token and token latency compared to Accelerate, and over 90% compared to Transformers and Galaxy, while cutting the peak memory footprint of Llama 2-70B by 90%, requiring only 3.1 GB of memory for 70B-scale models.

TPI-LLM: Effiziente Bereitstellung von LLMs im Maßstab von 70 Milliarden auf ressourcenarmen Edge-Geräten

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

papers.abstract

Support