ChatPaper.aiChatPaper

다중 소비자용 GPU에서 RoundPipe를 활용한 효율적 훈련

Efficient Training on Multiple Consumer GPUs with RoundPipe

April 29, 2026
저자: Yibin Luo, Shiwei Gao, Huichuan Zheng, Youyou Lu, Jiwu Shu
cs.AI

초록

소비자용 GPU에서 대규모 언어 모델(LLM)을 미세 조정하는 것은 비용 효율성이 높지만, 제한된 GPU 메모리와 느린 PCIe 상호 연결로 인해 제약을 받습니다. 파이프라인 병렬화와 CPU 오프로딩을 결합하면 통신 오버헤드를 줄여 이러한 하드웨어 병목 현상을 완화할 수 있습니다. 그러나 기존 파이프라인 병렬화 스케줄링은 가중치 바인딩 문제라는 근본적인 한계를 지닙니다. 불균형한 모델 스테이지(예: LM 헤드가 큰 경우)를 GPU에 바인딩하면 파이프라인의 처리량이 가장 부하가 큰 GPU의 성능으로 제한되어 심각한 파이프라인 버블이 발생합니다. 본 논문에서는 소비자용 GPU 서버에서 가중치 바인딩 제약을 해결하는 새로운 파이프라인 스케줄링 방식인 RoundPipe를 제안합니다. RoundPipe는 GPU를 상태 비저장 실행 작업자 풀로 간주하고 계산 스테이지를 라운드 로빈 방식으로 장치에 동적으로 디스패치하여 버블이 거의 없는 파이프라인을 구현합니다. 학습의 정확성과 시스템 효율성을 보장하기 위해 RoundPipe는 우선순위 인식 전송 스케줄링 엔진, 세분화된 분산 이벤트 기반 동기화 프로토콜, 자동화된 계층 분할 알고리즘을 통합합니다. 8개의 RTX 4090 서버에서 수행한 평가 결과, RoundPipe는 1.7B부터 32B 모델을 미세 조정할 때 최신 기준선 대비 1.48~2.16배의 성능 향상을 달성했습니다. 특히 RoundPipe는 단일 서버에서 31K 시퀀스 길이의 Qwen3-235B 모델에 대한 LoRA 미세 조정을 가능하게 합니다. RoundPipe는 포괄적인 문서와 함께 오픈소스 Python 라이브러리로 공개되었습니다.
English
Fine-tuning Large Language Models (LLMs) on consumer-grade GPUs is highly cost-effective, yet constrained by limited GPU memory and slow PCIe interconnects. Pipeline parallelism combined with CPU offloading mitigates these hardware bottlenecks by reducing communication overhead. However, existing PP schedules suffer from an inherent limitation termed the weight binding issue. Binding uneven model stages (e.g., the LM head is large) to GPUs limits the pipeline's throughput to that of the GPU with the heaviest load, leading to severe pipeline bubbles. In this paper, we propose RoundPipe, a novel pipeline schedule that breaks the weight binding constraint on consumer GPU servers. RoundPipe treats GPUs as a pool of stateless execution workers and dynamically dispatches computation stages across devices in a round-robin manner, achieving a near-zero-bubble pipeline. To ensure training correctness and system efficiency, RoundPipe integrates a priority-aware transfer scheduling engine, a fine-grained distributed event-based synchronization protocol, and an automated layer partitioning algorithm. Evaluations on an 8times RTX 4090 server demonstrate that RoundPipe achieves 1.48--2.16times speedups over state-of-the-art baselines when fine-tuning 1.7B to 32B models. Remarkably, RoundPipe enables LoRA fine-tuning of the Qwen3-235B model with 31K sequence length on a single server. RoundPipe is publicly available as an open-source Python library with comprehensive documentation.
PDF241May 2, 2026