GQLA: Atención Latente de Consulta en Grupo para la Decodificación de Modelos de Lenguaje Grandes Adaptativa al Hardware

Resumen

La Atención Latente de Múltiples Cabezas (MLA), utilizada en DeepSeek-V2/V3, comprime conjuntamente claves y valores en una representación latente de bajo rango y se ajusta casi perfectamente a la curva roofline de la H100. Sin embargo, sus pesos entrenados exponen únicamente una ruta de decodificación —una forma MQA absorbida— que vincula la inferencia eficiente a ratios cómputo-ancho de banda propios de la clase H100, elimina el paralelismo de tensores a lo largo del eje de las cabezas y no genera ninguna ganancia en la Predicción de Múltiples Tokens (MTP) en GPU de inferencia comerciales, como la H20 con restricciones de exportación. Proponemos la Atención Latente de Consulta por Grupo (GQLA), una modificación mínima de MLA cuyos pesos entrenados exponen dos rutas de decodificación algebraicamente equivalentes sobre los mismos parámetros: una ruta absorbida MQA idéntica a la de MLA, y una ruta GQA con una caché expandida por grupo. En tiempo de ejecución se selecciona la ruta que mejor se adapta al hardware objetivo —sin reentrenamiento ni kernels personalizados—, de modo que un único conjunto de pesos GQLA fija las curvas roofline tanto de la H100 (ruta MQA absorbida, s_q=1) como de la H20 (ruta GQA + MTP, s_q=2), al tiempo que admite hasta 8 vías de paralelismo de tensores sin redundancia en la ruta GQA. Para evitar el preentrenamiento desde cero, extendemos TransMLA a TransGQLA, que convierte un punto de control GQA preentrenado en un modelo GQLA; en LLaMA-3-8B comprime la caché KV por token al 28.125% del valor base GQA en la ruta MQA absorbida, preservando estructuralmente el tráfico propio de GQA en la ruta por grupo.

English

Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matches the H100 roofline almost perfectly. Its trained weights, however, expose only one decoding path - an absorbed MQA form - which ties efficient inference to H100-class compute-bandwidth ratios, forfeits tensor parallelism along the head axis, and yields no Multi-Token Prediction (MTP) gain on commodity inference GPUs such as the export-restricted H20. We propose Group-Query Latent Attention (GQLA), a minimal modification of MLA whose trained weights expose two algebraically equivalent decoding paths over the same parameters: an MQA-absorb path identical to MLA's, and a GQA path with a per-group expanded cache. The runtime picks the path that matches the target hardware - no retraining, no custom kernels - so a single set of GQLA weights pins the rooflines of both H100 (MQA-absorb, s_q=1) and H20 (GQA + MTP, s_q=2), while supporting up to 8-way zero-redundancy tensor parallelism on the GQA path. To avoid pretraining from scratch we extend TransMLA into TransGQLA, which converts a pretrained GQA checkpoint into a GQLA model; on LLaMA-3-8B it compresses the per-token KV cache to 28.125% of the GQA baseline on the MQA-absorb path while structurally preserving GQA-level traffic on the per-group path.