Fiddler : Orchestration CPU-GPU pour l'inférence rapide des modèles de mélange d'experts

papers.abstract

Les modèles de langage de grande taille (LLMs) basés sur l'architecture Mixture-of-Experts (MoE) démontrent des performances prometteuses sur diverses tâches. Cependant, leur exécution dans des environnements aux ressources limitées, où la mémoire GPU n'est pas abondante, est un défi en raison de la taille importante des modèles. Les systèmes existants qui déchargent les poids des modèles vers la mémoire CPU souffrent d'une surcharge significative due au transfert fréquent de données entre le CPU et le GPU. Dans cet article, nous proposons Fiddler, un moteur d'inférence économe en ressources avec orchestration CPU-GPU pour les modèles MoE. L'idée clé de Fiddler est d'utiliser la capacité de calcul du CPU pour minimiser le mouvement de données entre le CPU et le GPU. Notre évaluation montre que Fiddler peut exécuter le modèle Mixtral-8x7B non compressé, qui dépasse 90 Go de paramètres, pour générer plus de 3 tokens par seconde sur un seul GPU avec 24 Go de mémoire, montrant une amélioration d'un ordre de grandeur par rapport aux méthodes existantes. Le code de Fiddler est disponible publiquement à l'adresse https://github.com/efeslab/fiddler.

English

Large Language Models (LLMs) based on Mixture-of-Experts (MoE) architecture are showing promising performance on various tasks. However, running them on resource-constrained settings, where GPU memory resources are not abundant, is challenging due to huge model sizes. Existing systems that offload model weights to CPU memory suffer from the significant overhead of frequently moving data between CPU and GPU. In this paper, we propose Fiddler, a resource-efficient inference engine with CPU-GPU orchestration for MoE models. The key idea of Fiddler is to use the computation ability of the CPU to minimize the data movement between the CPU and GPU. Our evaluation shows that Fiddler can run the uncompressed Mixtral-8x7B model, which exceeds 90GB in parameters, to generate over 3 tokens per second on a single GPU with 24GB memory, showing an order of magnitude improvement over existing methods. The code of Fiddler is publicly available at https://github.com/efeslab/fiddler

Fiddler : Orchestration CPU-GPU pour l'inférence rapide des modèles de mélange d'experts

Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

papers.abstract

Support