Addestramento Efficiente su Multiple GPU Consumer con RoundPipe

Abstract

Il fine-tuning di Large Language Models (LLM) su GPU di livello consumer è estremamente conveniente, ma è limitato dalla memoria GPU ridotta e dalle interconnessioni PCIe lente. Il parallelismo pipeline combinato con l'offloading su CPU mitiga questi colli di bottiglia hardware riducendo l'overhead di comunicazione. Tuttavia, gli scheduler di pipeline esistenti soffrono di una limitazione intrinseca denominata problema del vincolo dei pesi. Il binding di stadi del modello di dimensioni diseguali (ad esempio, la testa LM è grande) alle GPU limita la produttività della pipeline a quella della GPU con il carico più pesante, portando a severe bolle di pipeline. In questo articolo, proponiamo RoundPipe, un innovativo scheduler di pipeline che supera il vincolo del binding dei pesi su server con GPU consumer. RoundPipe tratta le GPU come un pool di worker di esecuzione senza stato e distribuisce dinamicamente gli stadi di calcolo tra i dispositivi in modo round-robin, raggiungendo una pipeline quasi priva di bolle. Per garantire la correttezza dell'addestramento e l'efficienza del sistema, RoundPipe integra un motore di scheduling dei trasferimenti con consapevolezza della priorità, un protocollo di sincronizzazione distribuito fine-grained basato su eventi e un algoritmo di partizionamento automatico dei layer. Le valutazioni su un server con 8x RTX 4090 dimostrano che RoundPipe raggiunge un miglioramento delle prestazioni da 1.48 a 2.16 volte rispetto ai baseline state-of-the-art durante il fine-tuning di modelli da 1.7B a 32B. Notevolmente, RoundPipe abilita il fine-tuning LoRA del modello Qwen3-235B con lunghezza di sequenza di 31K su un singolo server. RoundPipe è pubblicamente disponibile come libreria Python open-source con documentazione completa.

English

Fine-tuning Large Language Models (LLMs) on consumer-grade GPUs is highly cost-effective, yet constrained by limited GPU memory and slow PCIe interconnects. Pipeline parallelism combined with CPU offloading mitigates these hardware bottlenecks by reducing communication overhead. However, existing PP schedules suffer from an inherent limitation termed the weight binding issue. Binding uneven model stages (e.g., the LM head is large) to GPUs limits the pipeline's throughput to that of the GPU with the heaviest load, leading to severe pipeline bubbles. In this paper, we propose RoundPipe, a novel pipeline schedule that breaks the weight binding constraint on consumer GPU servers. RoundPipe treats GPUs as a pool of stateless execution workers and dynamically dispatches computation stages across devices in a round-robin manner, achieving a near-zero-bubble pipeline. To ensure training correctness and system efficiency, RoundPipe integrates a priority-aware transfer scheduling engine, a fine-grained distributed event-based synchronization protocol, and an automated layer partitioning algorithm. Evaluations on an 8times RTX 4090 server demonstrate that RoundPipe achieves 1.48--2.16times speedups over state-of-the-art baselines when fine-tuning 1.7B to 32B models. Remarkably, RoundPipe enables LoRA fine-tuning of the Qwen3-235B model with 31K sequence length on a single server. RoundPipe is publicly available as an open-source Python library with comprehensive documentation.

Addestramento Efficiente su Multiple GPU Consumer con RoundPipe

Efficient Training on Multiple Consumer GPUs with RoundPipe

Abstract

Support