ChatPaper.aiChatPaper

複数のコンシューマーGPUにおける効率的な訓練とRoundPipe

Efficient Training on Multiple Consumer GPUs with RoundPipe

April 29, 2026
著者: Yibin Luo, Shiwei Gao, Huichuan Zheng, Youyou Lu, Jiwu Shu
cs.AI

要旨

コンシューマー向けGPUでの大規模言語モデル(LLM)ファインチューニングはコスト効率に優れる一方、限られたGPUメモリと低速なPCIe相互接続によって制約を受けている。パイプライン並列処理とCPUオフロードを組み合わせることで、通信オーバーヘッドを削減しこれらのハードウェアボトルネックを緩和できる。しかし、既存のPPスケジューリングには「重み束縛問題」と呼ばれる根本的な制約が存在する。不均一なモデルステージ(例:LMヘッドが大きい)をGPUに固定すると、パイプラインのスループットが最も負荷の高いGPUの性能に制限され、深刻なパイプラインバブルが発生する。 本論文では、コンシューマーGPUサーバーにおける重み束縛の制約を打破する新しいパイプラインスケジュール手法RoundPipeを提案する。RoundPipeはGPUをステートレスな実行ワーカーのプールとして扱い、計算ステージをラウンドロビン方式でデバイス間へ動的に割り当て、ほぼゼロバブルに近いパイプラインを実現する。学習の正確性とシステム効率を確保するため、RoundPipeは優先度対応転送スケジューリングエンジン、細粒度分散イベントベース同期プロトコル、自動化されたレイヤ分割アルゴリズムを統合している。8基のRTX 4090を搭載したサーバーでの評価では、1.7Bから32Bモデルのファインチューニングにおいて、最新のベースライン比1.48~2.16倍の高速化を達成した。特筆すべきは、RoundPipeが単一サーバーで31Kシーケンス長のQwen3-235BモデルのLoRAファインチューニングを可能にした点である。 RoundPipeは包括的なドキュメントとともに、オープンソースのPythonライブラリとして公開されている。
English
Fine-tuning Large Language Models (LLMs) on consumer-grade GPUs is highly cost-effective, yet constrained by limited GPU memory and slow PCIe interconnects. Pipeline parallelism combined with CPU offloading mitigates these hardware bottlenecks by reducing communication overhead. However, existing PP schedules suffer from an inherent limitation termed the weight binding issue. Binding uneven model stages (e.g., the LM head is large) to GPUs limits the pipeline's throughput to that of the GPU with the heaviest load, leading to severe pipeline bubbles. In this paper, we propose RoundPipe, a novel pipeline schedule that breaks the weight binding constraint on consumer GPU servers. RoundPipe treats GPUs as a pool of stateless execution workers and dynamically dispatches computation stages across devices in a round-robin manner, achieving a near-zero-bubble pipeline. To ensure training correctness and system efficiency, RoundPipe integrates a priority-aware transfer scheduling engine, a fine-grained distributed event-based synchronization protocol, and an automated layer partitioning algorithm. Evaluations on an 8times RTX 4090 server demonstrate that RoundPipe achieves 1.48--2.16times speedups over state-of-the-art baselines when fine-tuning 1.7B to 32B models. Remarkably, RoundPipe enables LoRA fine-tuning of the Qwen3-235B model with 31K sequence length on a single server. RoundPipe is publicly available as an open-source Python library with comprehensive documentation.
PDF241May 2, 2026