ChatPaper.aiChatPaper

Verteiltes Inferenz und Feinabstimmung großer Sprachmodelle über das Internet

Distributed Inference and Fine-tuning of Large Language Models Over The Internet

December 13, 2023
Autoren: Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin, Colin Raffel
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) sind in vielen NLP-Aufgaben nützlich und werden mit zunehmender Größe leistungsfähiger, wobei die besten Open-Source-Modelle über 50 Milliarden Parameter aufweisen. Die Nutzung dieser Modelle mit 50 Milliarden+ Parametern erfordert jedoch High-End-Hardware, was sie für die meisten Forscher unzugänglich macht. In dieser Arbeit untersuchen wir Methoden für kosteneffizientes Inferenz und Fine-Tuning von LLMs und vergleichen lokale und verteilte Strategien. Wir beobachten, dass ein ausreichend großes Modell (50 Milliarden+) selbst auf geografisch verteilten Geräten in einem Consumer-Grade-Netzwerk effizient laufen kann. Dies könnte die effiziente Ausführung von LLMs ermöglichen, indem Rechenressourcen mehrerer Forschungsgruppen und Freiwilliger zusammengelegt werden. Wir behandeln zwei offene Probleme: (1) wie man Inferenz und Fine-Tuning zuverlässig durchführen kann, wenn jedes Gerät abrupt die Verbindung trennen kann, und (2) wie man LLMs zwischen Geräten mit ungleicher Hardware aufteilen kann, die sich nach Belieben verbinden und trennen. Dazu entwickeln wir spezielle fehlertolerante Inferenzalgorithmen und Lastverteilungsprotokolle, die Geräte automatisch zuweisen, um den Gesamtdurchsatz des Systems zu maximieren. Wir präsentieren diese Algorithmen in Petals – einem dezentralen System, das Llama 2 (70 Milliarden) und BLOOM (176 Milliarden) über das Internet bis zu 10-mal schneller als Offloading für interaktive Generierung ausführt. Wir bewerten die Leistung unseres Systems unter simulierten Bedingungen und in einem realen Setup, das zwei Kontinente umspannt.
English
Large language models (LLMs) are useful in many NLP tasks and become more capable with size, with the best open-source models having over 50 billion parameters. However, using these 50B+ models requires high-end hardware, making them inaccessible to most researchers. In this work, we investigate methods for cost-efficient inference and fine-tuning of LLMs, comparing local and distributed strategies. We observe that a large enough model (50B+) can run efficiently even on geodistributed devices in a consumer-grade network. This could allow running LLM efficiently by pooling together idle compute resources of multiple research groups and volunteers. We address two open problems: (1) how to perform inference and fine-tuning reliably if any device can disconnect abruptly and (2) how to partition LLMs between devices with uneven hardware, joining and leaving at will. In order to do that, we develop special fault-tolerant inference algorithms and load-balancing protocols that automatically assign devices to maximize the total system throughput. We showcase these algorithms in Petals - a decentralized system that runs Llama 2 (70B) and BLOOM (176B) over the Internet up to 10x faster than offloading for interactive generation. We evaluate the performance of our system in simulated conditions and a real-world setup spanning two continents.
PDF284December 15, 2024