Entraînement efficace sur plusieurs GPU grand public avec RoundPipe

Résumé

Le réglage fin des grands modèles de langage (LLM) sur des GPU grand public est très rentable, mais il est limité par la mémoire GPU restreinte et la lenteur des interconnexions PCIe. Le parallélisme par pipeline combiné au déchargement sur le processeur atténue ces goulots d'étranglement matériels en réduisant la surcharge de communication. Cependant, les planifications de parallélisme par pipeline existantes souffrent d'une limitation intrinsèque appelée le problème de liaison des poids. La liaison de stages de modèle de taille inégale (par exemple, la tête de modélisation du langage est volumineuse) à des GPU limite le débit du pipeline à celui du GPU avec la charge la plus lourde, entraînant de sévères bulles de pipeline. Dans cet article, nous proposons RoundPipe, une nouvelle planification de pipeline qui lève la contrainte de liaison des poids sur les serveurs GPU grand public. RoundPipe traite les GPU comme un pool de workers d'exécution sans état et répartit dynamiquement les étapes de calcul sur les appareils de manière cyclique, réalisant un pipeline à bulles quasi nulles. Pour garantir la justesse de l'entraînement et l'efficacité du système, RoundPipe intègre un moteur de planification de transfert prioritaire, un protocole de synchronisation distribué basé sur des événements à granularité fine et un algorithme automatisé de partitionnement des couches. Les évaluations sur un serveur équipé de 8x RTX 4090 démontrent que RoundPipe obtient des accélérations de 1,48 à 2,16 fois par rapport aux meilleures méthodes de référence lors du réglage fin de modèles de 1,7B à 32B. Fait remarquable, RoundPipe permet le réglage fin par LoRA du modèle Qwen3-235B avec une longueur de séquence de 31K sur un seul serveur. RoundPipe est disponible publiquement sous la forme d'une bibliothèque Python open-source avec une documentation complète.

English

Fine-tuning Large Language Models (LLMs) on consumer-grade GPUs is highly cost-effective, yet constrained by limited GPU memory and slow PCIe interconnects. Pipeline parallelism combined with CPU offloading mitigates these hardware bottlenecks by reducing communication overhead. However, existing PP schedules suffer from an inherent limitation termed the weight binding issue. Binding uneven model stages (e.g., the LM head is large) to GPUs limits the pipeline's throughput to that of the GPU with the heaviest load, leading to severe pipeline bubbles. In this paper, we propose RoundPipe, a novel pipeline schedule that breaks the weight binding constraint on consumer GPU servers. RoundPipe treats GPUs as a pool of stateless execution workers and dynamically dispatches computation stages across devices in a round-robin manner, achieving a near-zero-bubble pipeline. To ensure training correctness and system efficiency, RoundPipe integrates a priority-aware transfer scheduling engine, a fine-grained distributed event-based synchronization protocol, and an automated layer partitioning algorithm. Evaluations on an 8times RTX 4090 server demonstrate that RoundPipe achieves 1.48--2.16times speedups over state-of-the-art baselines when fine-tuning 1.7B to 32B models. Remarkably, RoundPipe enables LoRA fine-tuning of the Qwen3-235B model with 31K sequence length on a single server. RoundPipe is publicly available as an open-source Python library with comprehensive documentation.

Entraînement efficace sur plusieurs GPU grand public avec RoundPipe

Efficient Training on Multiple Consumer GPUs with RoundPipe

Résumé

Support