TPI-LLM: Эффективное обслуживание LLM масштабом 70 млрд на устройствах с ограниченными ресурсами на краю сети

Аннотация

Инференция больших моделей переходит с облачных серверов на краевые устройства из-за опасений относительно конфиденциальности данных взаимодействия пользователей. Однако краевые устройства часто сталкиваются с ограниченной вычислительной мощностью, памятью и пропускной способностью, что требует совместной работы нескольких устройств для выполнения и ускорения инференции LLM. Параллелизм конвейера, основное решение, неэффективен для сценариев с одним пользователем, в то время как тензорный параллелизм испытывает проблемы с частыми коммуникациями. В данной статье мы утверждаем, что тензорный параллелизм может быть более эффективным, чем конвейерный, на устройствах с ограниченными ресурсами, и представляем систему инференции с тензорным параллелизмом, вычислительно и памятью эффективную, под названием TPI-LLM, для обслуживания моделей масштаба 70 миллиардов. TPI-LLM хранит конфиденциальные исходные данные локально на устройствах пользователей и вводит динамический планировщик памяти со скользящим окном для управления весами слоев во время инференции, с перекрытием задержки ввода-вывода на диск с вычислениями и коммуникациями. Это позволяет более крупным моделям работать плавно на устройствах с ограниченной памятью. Мы анализируем узкое место в коммуникации и обнаруживаем, что задержка связи, а не пропускная способность, возникает как основная проблема, поэтому реализован алгоритм allreduce на основе звезды. Через обширные эксперименты как на эмулированных, так и на реальных испытательных стендах, TPI-LLM продемонстрировал более чем 80% меньшее время до первого токена и задержку токена по сравнению с Accelerate, и более чем 90% по сравнению с Transformers и Galaxy, сокращая пиковый объем памяти Llama 2-70B на 90%, требуя всего 3,1 ГБ памяти для моделей масштаба 70 миллиардов.

English

Large model inference is shifting from cloud to edge due to concerns about the privacy of user interaction data. However, edge devices often struggle with limited computing power, memory, and bandwidth, requiring collaboration across multiple devices to run and speed up LLM inference. Pipeline parallelism, the mainstream solution, is inefficient for single-user scenarios, while tensor parallelism struggles with frequent communications. In this paper, we argue that tensor parallelism can be more effective than pipeline on low-resource devices, and present a compute- and memory-efficient tensor parallel inference system, named TPI-LLM, to serve 70B-scale models. TPI-LLM keeps sensitive raw data local in the users' devices and introduces a sliding window memory scheduler to dynamically manage layer weights during inference, with disk I/O latency overlapped with the computation and communication. This allows larger models to run smoothly on memory-limited devices. We analyze the communication bottleneck and find that link latency, not bandwidth, emerges as the main issue, so a star-based allreduce algorithm is implemented. Through extensive experiments on both emulated and real testbeds, TPI-LLM demonstrated over 80% less time-to-first-token and token latency compared to Accelerate, and over 90% compared to Transformers and Galaxy, while cutting the peak memory footprint of Llama 2-70B by 90%, requiring only 3.1 GB of memory for 70B-scale models.

TPI-LLM: Эффективное обслуживание LLM масштабом 70 млрд на устройствах с ограниченными ресурсами на краю сети

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

Аннотация

Support