Ulises desatado: paralelismo de contexto eficiente en memoria mediante fragmentación por cabezales

Resumen

El procesamiento eficiente de secuencias largas con modelos Transformer generalmente requiere dividir los cálculos entre aceleradores mediante paralelismo de contexto. Los enfoques dominantes en esta familia de métodos, como Ring Attention o DeepSpeed Ulysses, permiten escalar en la dimensión del contexto pero no se centran en la eficiencia de memoria, lo que limita las longitudes de secuencia que pueden soportar. Técnicas más avanzadas, como el Transformer Distribuido Totalmente Canalizado o la descarga de activaciones, pueden extender aún más la longitud de contexto posible a costa del rendimiento del entrenamiento. En este artículo, presentamos UPipe, una técnica de paralelismo de contexto simple pero efectiva que realiza una división en fragmentos de grano fino a nivel de cabezal de atención. Esta técnica reduce significativamente el uso de memoria de activaciones de la autoatención, superando la barrera de memoria de activaciones y permitiendo longitudes de contexto mucho mayores. Nuestro enfoque reduce el uso de memoria de tensores intermedios en la capa de atención hasta en un 87,5% para Transformers de 32B, al tiempo que iguala a las técnicas de paralelismo de contexto anteriores en términos de velocidad de entrenamiento. UPipe puede soportar una longitud de contexto de 5M de tokens al entrenar Llama3-8B en un solo nodo 8xH100, lo que supone una mejora de más del 25% respecto a métodos anteriores.

English

Efficiently processing long sequences with Transformer models usually requires splitting the computations across accelerators via context parallelism. The dominant approaches in this family of methods, such as Ring Attention or DeepSpeed Ulysses, enable scaling over the context dimension but do not focus on memory efficiency, which limits the sequence lengths they can support. More advanced techniques, such as Fully Pipelined Distributed Transformer or activation offloading, can further extend the possible context length at the cost of training throughput. In this paper, we present UPipe, a simple yet effective context parallelism technique that performs fine-grained chunking at the attention head level. This technique significantly reduces the activation memory usage of self-attention, breaking the activation memory barrier and unlocking much longer context lengths. Our approach reduces intermediate tensor memory usage in the attention layer by as much as 87.5% for 32B Transformers, while matching previous context parallelism techniques in terms of training speed. UPipe can support the context length of 5M tokens when training Llama3-8B on a single 8timesH100 node, improving upon prior methods by over 25%.

Ulises desatado: paralelismo de contexto eficiente en memoria mediante fragmentación por cabezales

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Resumen

Support