Fiddler : Orchestration CPU-GPU pour l'inférence rapide des modèles de mélange d'experts
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models
February 10, 2024
Auteurs: Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) basés sur l'architecture Mixture-of-Experts (MoE) démontrent des performances prometteuses sur diverses tâches. Cependant, leur exécution dans des environnements aux ressources limitées, où la mémoire GPU n'est pas abondante, est un défi en raison de la taille importante des modèles. Les systèmes existants qui déchargent les poids des modèles vers la mémoire CPU souffrent d'une surcharge significative due au transfert fréquent de données entre le CPU et le GPU. Dans cet article, nous proposons Fiddler, un moteur d'inférence économe en ressources avec orchestration CPU-GPU pour les modèles MoE. L'idée clé de Fiddler est d'utiliser la capacité de calcul du CPU pour minimiser le mouvement de données entre le CPU et le GPU. Notre évaluation montre que Fiddler peut exécuter le modèle Mixtral-8x7B non compressé, qui dépasse 90 Go de paramètres, pour générer plus de 3 tokens par seconde sur un seul GPU avec 24 Go de mémoire, montrant une amélioration d'un ordre de grandeur par rapport aux méthodes existantes. Le code de Fiddler est disponible publiquement à l'adresse https://github.com/efeslab/fiddler.
English
Large Language Models (LLMs) based on Mixture-of-Experts (MoE) architecture
are showing promising performance on various tasks. However, running them on
resource-constrained settings, where GPU memory resources are not abundant, is
challenging due to huge model sizes. Existing systems that offload model
weights to CPU memory suffer from the significant overhead of frequently moving
data between CPU and GPU. In this paper, we propose Fiddler, a
resource-efficient inference engine with CPU-GPU orchestration for MoE models.
The key idea of Fiddler is to use the computation ability of the CPU to
minimize the data movement between the CPU and GPU. Our evaluation shows that
Fiddler can run the uncompressed Mixtral-8x7B model, which exceeds 90GB in
parameters, to generate over 3 tokens per second on a single GPU with 24GB
memory, showing an order of magnitude improvement over existing methods. The
code of Fiddler is publicly available at
https://github.com/efeslab/fiddlerSummary
AI-Generated Summary