ChatPaper.aiChatPaper

T3: Seguimiento y Activación Transparente para la Superposición de Cálculo y Colectivos a Nivel de Granularidad Fina

T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives

January 30, 2024
Autores: Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena, Matthew D. Sinclair
cs.AI

Resumen

Los modelos de lenguaje a gran escala dependen cada vez más de técnicas distribuidas para su entrenamiento e inferencia. Estas técnicas requieren comunicación entre dispositivos, lo que puede reducir la eficiencia de escalabilidad a medida que aumenta el número de dispositivos. Si bien algunas técnicas distribuidas pueden superponerse y, por lo tanto, ocultar esta comunicación con cálculos independientes, técnicas como el Paralelismo de Tensores (TP) serializan inherentemente la comunicación con la ejecución del modelo. Un enfoque para ocultar esta comunicación serializada es intercalarla con la operación del productor (de los datos comunicados) de manera granular. Sin embargo, esta intercalación granular de comunicación y cálculo en software puede ser difícil. Además, como con cualquier ejecución concurrente, requiere que los recursos de cálculo y memoria se compartan entre el cálculo y la comunicación, lo que provoca contención de recursos que reduce la eficacia de la superposición. Para superar estos desafíos, proponemos T3, que aplica un co-diseño hardware-software para superponer transparentemente la comunicación serializada mientras minimiza la contención de recursos con el cálculo. T3 fusiona transparentemente las operaciones del productor con la comunicación subsiguiente mediante una configuración simple del espacio de direcciones de salida del productor y requiere cambios menores en el software. A nivel de hardware, T3 añade un mecanismo ligero de seguimiento y activación para orquestar el cálculo y la comunicación del productor. Además, utiliza memorias mejoradas con capacidad de cálculo para el procesamiento asociado a la comunicación. Como resultado, T3 reduce la contención de recursos y superpone eficientemente la comunicación serializada con el cálculo. Para modelos importantes de Transformers como T-NLG, T3 acelera las subcapas intensivas en comunicación en un 30% en media geométrica (máximo 47%) y reduce el movimiento de datos en un 22% en media geométrica (máximo 36%). Además, los beneficios de T3 persisten a medida que los modelos escalan: media geométrica del 29% para subcapas en modelos simulados de 500 mil millones de parámetros, como PALM y MT-NLG.
English
Large Language Models increasingly rely on distributed techniques for their training and inference. These techniques require communication across devices which can reduce scaling efficiency as the number of devices increases. While some distributed techniques can overlap, and thus, hide this communication with independent computations, techniques such as Tensor Parallelism (TP) inherently serialize communication with model execution. One approach to hide this serialized communication is to interleave it with the producer operation (of the communicated data) in a fine-grained manner. However, this fine-grained interleaving of communication and computation in software can be difficult. Furthermore, as with any concurrent execution, it requires compute and memory resources to be shared between computation and communication, causing resource contention that reduces overlapping efficacy. To overcome these challenges, we propose T3 which applies hardware-software co-design to transparently overlap serialized communication while minimizing resource contention with compute. T3 transparently fuses producer operations with the subsequent communication via a simple configuration of the producer's output address space and requires minor software changes. At the hardware level, T3 adds a lightweight track and trigger mechanism to orchestrate the producer's compute, and communication. It further uses compute-enhanced memories for communication's attendant compute. As a result, T3 reduces resource contention, and efficiently overlaps serialized communication with computation. For important Transformer models like T-NLG, T3 speeds up communication-heavy sublayers by 30% geomean (max 47%) and reduces data movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models scale: geomean 29% for sublayers in sim500-billion parameter models, PALM and MT-NLG.
PDF51December 15, 2024