Inférence distribuée et affinage de grands modèles de langage sur Internet

papers.abstract

Les grands modèles de langage (LLMs) sont utiles pour de nombreuses tâches de traitement du langage naturel (NLP) et deviennent plus performants avec l'augmentation de leur taille, les meilleurs modèles open-source dépassant les 50 milliards de paramètres. Cependant, l'utilisation de ces modèles de 50 milliards de paramètres et plus nécessite du matériel haut de gamme, les rendant inaccessibles à la plupart des chercheurs. Dans ce travail, nous étudions des méthodes pour l'inférence et le fine-tuning économiques des LLMs, en comparant des stratégies locales et distribuées. Nous observons qu'un modèle suffisamment grand (50 milliards de paramètres et plus) peut fonctionner efficacement même sur des dispositifs géodistribués dans un réseau de qualité grand public. Cela pourrait permettre d'exécuter des LLMs de manière efficace en regroupant les ressources de calcul inutilisées de plusieurs groupes de recherche et de volontaires. Nous abordons deux problèmes ouverts : (1) comment effectuer l'inférence et le fine-tuning de manière fiable si un dispositif peut se déconnecter brusquement et (2) comment partitionner les LLMs entre des dispositifs avec des matériels hétérogènes, pouvant rejoindre et quitter le système à volonté. Pour ce faire, nous développons des algorithmes d'inférence tolérants aux pannes et des protocoles d'équilibrage de charge qui assignent automatiquement les dispositifs pour maximiser le débit total du système. Nous présentons ces algorithmes dans Petals - un système décentralisé qui exécute Llama 2 (70 milliards de paramètres) et BLOOM (176 milliards de paramètres) sur Internet jusqu'à 10 fois plus rapidement que le déchargement pour la génération interactive. Nous évaluons les performances de notre système dans des conditions simulées et dans un environnement réel couvrant deux continents.

English

Large language models (LLMs) are useful in many NLP tasks and become more capable with size, with the best open-source models having over 50 billion parameters. However, using these 50B+ models requires high-end hardware, making them inaccessible to most researchers. In this work, we investigate methods for cost-efficient inference and fine-tuning of LLMs, comparing local and distributed strategies. We observe that a large enough model (50B+) can run efficiently even on geodistributed devices in a consumer-grade network. This could allow running LLM efficiently by pooling together idle compute resources of multiple research groups and volunteers. We address two open problems: (1) how to perform inference and fine-tuning reliably if any device can disconnect abruptly and (2) how to partition LLMs between devices with uneven hardware, joining and leaving at will. In order to do that, we develop special fault-tolerant inference algorithms and load-balancing protocols that automatically assign devices to maximize the total system throughput. We showcase these algorithms in Petals - a decentralized system that runs Llama 2 (70B) and BLOOM (176B) over the Internet up to 10x faster than offloading for interactive generation. We evaluate the performance of our system in simulated conditions and a real-world setup spanning two continents.

Inférence distribuée et affinage de grands modèles de langage sur Internet

Distributed Inference and Fine-tuning of Large Language Models Over The Internet

papers.abstract

Support