Verteiltes Inferenz und Feinabstimmung großer Sprachmodelle über das Internet
Distributed Inference and Fine-tuning of Large Language Models Over The Internet
December 13, 2023
Autoren: Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin, Colin Raffel
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind in vielen NLP-Aufgaben nützlich und werden mit zunehmender Größe leistungsfähiger, wobei die besten Open-Source-Modelle über 50 Milliarden Parameter aufweisen. Die Nutzung dieser Modelle mit 50 Milliarden+ Parametern erfordert jedoch High-End-Hardware, was sie für die meisten Forscher unzugänglich macht. In dieser Arbeit untersuchen wir Methoden für kosteneffizientes Inferenz und Fine-Tuning von LLMs und vergleichen lokale und verteilte Strategien. Wir beobachten, dass ein ausreichend großes Modell (50 Milliarden+) selbst auf geografisch verteilten Geräten in einem Consumer-Grade-Netzwerk effizient laufen kann. Dies könnte die effiziente Ausführung von LLMs ermöglichen, indem Rechenressourcen mehrerer Forschungsgruppen und Freiwilliger zusammengelegt werden. Wir behandeln zwei offene Probleme: (1) wie man Inferenz und Fine-Tuning zuverlässig durchführen kann, wenn jedes Gerät abrupt die Verbindung trennen kann, und (2) wie man LLMs zwischen Geräten mit ungleicher Hardware aufteilen kann, die sich nach Belieben verbinden und trennen. Dazu entwickeln wir spezielle fehlertolerante Inferenzalgorithmen und Lastverteilungsprotokolle, die Geräte automatisch zuweisen, um den Gesamtdurchsatz des Systems zu maximieren. Wir präsentieren diese Algorithmen in Petals – einem dezentralen System, das Llama 2 (70 Milliarden) und BLOOM (176 Milliarden) über das Internet bis zu 10-mal schneller als Offloading für interaktive Generierung ausführt. Wir bewerten die Leistung unseres Systems unter simulierten Bedingungen und in einem realen Setup, das zwei Kontinente umspannt.
English
Large language models (LLMs) are useful in many NLP tasks and become more
capable with size, with the best open-source models having over 50 billion
parameters. However, using these 50B+ models requires high-end hardware, making
them inaccessible to most researchers. In this work, we investigate methods for
cost-efficient inference and fine-tuning of LLMs, comparing local and
distributed strategies. We observe that a large enough model (50B+) can run
efficiently even on geodistributed devices in a consumer-grade network. This
could allow running LLM efficiently by pooling together idle compute resources
of multiple research groups and volunteers. We address two open problems: (1)
how to perform inference and fine-tuning reliably if any device can disconnect
abruptly and (2) how to partition LLMs between devices with uneven hardware,
joining and leaving at will. In order to do that, we develop special
fault-tolerant inference algorithms and load-balancing protocols that
automatically assign devices to maximize the total system throughput. We
showcase these algorithms in Petals - a decentralized system that runs Llama 2
(70B) and BLOOM (176B) over the Internet up to 10x faster than offloading for
interactive generation. We evaluate the performance of our system in simulated
conditions and a real-world setup spanning two continents.