Entrenamiento eficiente en múltiples GPU de consumo con RoundPipe

Resumen

El ajuste fino de Modelos de Lenguaje a Gran Escala (LLMs) en GPUs de grado consumidor es altamente rentable, pero se ve limitado por la memoria limitada de la GPU y las interconexiones PCIe lentas. El paralelismo de canalización (pipeline parallelism) combinado con la descarga a la CPU mitiga estos cuellos de botella del hardware al reducir la sobrecarga de comunicación. Sin embargo, las planificaciones de PP existentes adolecen de una limitación inherente denominada problema de vinculación de pesos. La vinculación de etapas del modelo desiguales (por ejemplo, la cabecera LM es grande) a las GPUs limita el rendimiento de la canalización al de la GPU con la carga más pesada, lo que genera graves burbujas en la canalización. En este artículo, proponemos RoundPipe, una novedosa planificación de canalización que rompe la restricción de vinculación de pesos en servidores con GPUs de consumo. RoundPipe trata las GPUs como un grupo de trabajadores de ejecución sin estado y distribuye dinámicamente las etapas de cálculo entre los dispositivos de manera round-robin, logrando una canalización con burbujas casi nulas. Para garantizar la corrección del entrenamiento y la eficiencia del sistema, RoundPipe integra un motor de planificación de transferencias consciente de prioridades, un protocolo de sincronización distribuido basado en eventos de grano fino y un algoritmo automático de partición de capas. Las evaluaciones en un servidor con 8x RTX 4090 demuestran que RoundPipe logra aceleraciones de 1.48 a 2.16 veces sobre los métodos de referencia más avanzados al realizar el ajuste fino de modelos de 1.7B a 32B parámetros. Notablemente, RoundPipe permite el ajuste fino LoRA del modelo Qwen3-235B con una longitud de secuencia de 31K en un solo servidor. RoundPipe está disponible públicamente como una biblioteca de Python de código abierto con documentación exhaustiva.

English

Fine-tuning Large Language Models (LLMs) on consumer-grade GPUs is highly cost-effective, yet constrained by limited GPU memory and slow PCIe interconnects. Pipeline parallelism combined with CPU offloading mitigates these hardware bottlenecks by reducing communication overhead. However, existing PP schedules suffer from an inherent limitation termed the weight binding issue. Binding uneven model stages (e.g., the LM head is large) to GPUs limits the pipeline's throughput to that of the GPU with the heaviest load, leading to severe pipeline bubbles. In this paper, we propose RoundPipe, a novel pipeline schedule that breaks the weight binding constraint on consumer GPU servers. RoundPipe treats GPUs as a pool of stateless execution workers and dynamically dispatches computation stages across devices in a round-robin manner, achieving a near-zero-bubble pipeline. To ensure training correctness and system efficiency, RoundPipe integrates a priority-aware transfer scheduling engine, a fine-grained distributed event-based synchronization protocol, and an automated layer partitioning algorithm. Evaluations on an 8times RTX 4090 server demonstrate that RoundPipe achieves 1.48--2.16times speedups over state-of-the-art baselines when fine-tuning 1.7B to 32B models. Remarkably, RoundPipe enables LoRA fine-tuning of the Qwen3-235B model with 31K sequence length on a single server. RoundPipe is publicly available as an open-source Python library with comprehensive documentation.

Entrenamiento eficiente en múltiples GPU de consumo con RoundPipe

Efficient Training on Multiple Consumer GPUs with RoundPipe

Resumen

Support