Gedistribueerde inferentie en fine-tuning van grote taalmodellen via het internet
Distributed Inference and Fine-tuning of Large Language Models Over The Internet
December 13, 2023
Auteurs: Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin, Colin Raffel
cs.AI
Samenvatting
Grote taalmodelen (LLMs) zijn nuttig in veel NLP-taken en worden krachtiger naarmate ze groter worden, waarbij de beste open-source modellen meer dan 50 miljard parameters hebben. Het gebruik van deze 50B+ modellen vereist echter hoogwaardige hardware, waardoor ze voor de meeste onderzoekers ontoegankelijk zijn. In dit werk onderzoeken we methoden voor kostenefficiënte inferentie en fine-tuning van LLMs, waarbij we lokale en gedistribueerde strategieën vergelijken. We observeren dat een groot genoeg model (50B+) efficiënt kan draaien, zelfs op geografisch verspreide apparaten in een consumentennetwerk. Dit zou het mogelijk kunnen maken om LLMs efficiënt te laten draaien door inactieve rekenbronnen van meerdere onderzoeksgroepen en vrijwilligers samen te voegen. We behandelen twee open problemen: (1) hoe inferentie en fine-tuning betrouwbaar uit te voeren als elk apparaat abrupt kan worden losgekoppeld en (2) hoe LLMs te verdelen tussen apparaten met ongelijke hardware, die naar believen kunnen toetreden en vertrekken. Om dit te bereiken, ontwikkelen we speciale fouttolerante inferentie-algoritmen en load-balancing protocollen die automatisch apparaten toewijzen om de totale systeemdoorvoer te maximaliseren. We demonstreren deze algoritmen in Petals - een gedecentraliseerd systeem dat Llama 2 (70B) en BLOOM (176B) over het internet tot 10x sneller draait dan offloading voor interactieve generatie. We evalueren de prestaties van ons systeem in gesimuleerde omstandigheden en een real-world opstelling die twee continenten omvat.
English
Large language models (LLMs) are useful in many NLP tasks and become more
capable with size, with the best open-source models having over 50 billion
parameters. However, using these 50B+ models requires high-end hardware, making
them inaccessible to most researchers. In this work, we investigate methods for
cost-efficient inference and fine-tuning of LLMs, comparing local and
distributed strategies. We observe that a large enough model (50B+) can run
efficiently even on geodistributed devices in a consumer-grade network. This
could allow running LLM efficiently by pooling together idle compute resources
of multiple research groups and volunteers. We address two open problems: (1)
how to perform inference and fine-tuning reliably if any device can disconnect
abruptly and (2) how to partition LLMs between devices with uneven hardware,
joining and leaving at will. In order to do that, we develop special
fault-tolerant inference algorithms and load-balancing protocols that
automatically assign devices to maximize the total system throughput. We
showcase these algorithms in Petals - a decentralized system that runs Llama 2
(70B) and BLOOM (176B) over the Internet up to 10x faster than offloading for
interactive generation. We evaluate the performance of our system in simulated
conditions and a real-world setup spanning two continents.