GQLA: Atenção Latente de Consulta em Grupo para Decodificação de Modelo de Linguagem Grande Adaptável ao Hardware

Resumo

A Atenção Latente de Múltiplas Cabeças (MLA), a atenção utilizada no DeepSeek-V2/V3, comprime conjuntamente chaves e valores em um latente de baixo posto e alinha-se quase perfeitamente ao roofline do H100. Seus pesos treinados, no entanto, expõem apenas um caminho de decodificação — uma forma MQA absorvida — que vincula a inferência eficiente a taxas de computação-largura de banda da classe H100, perde o paralelismo de tensores ao longo do eixo das cabeças e não produz ganho de Predição de Múltiplos Tokens (MTP) em GPUs de inferência comuns, como a H20 com restrições de exportação. Propomos a Atenção Latente de Consulta em Grupo (GQLA), uma modificação mínima do MLA cujos pesos treinados expõem dois caminhos de decodificação algebricamente equivalentes sobre os mesmos parâmetros: um caminho MQA-absorvido idêntico ao do MLA, e um caminho GQA com um cache expandido por grupo. O runtime seleciona o caminho que corresponde ao hardware alvo — sem retreinamento, sem kernels personalizados — de modo que um único conjunto de pesos GQLA atinge os rooflines tanto do H100 (MQA-absorvido, s_q=1) quanto do H20 (GQA + MTP, s_q=2), enquanto suporta paralelismo de tensores com zero redundância de até 8 vias no caminho GQA. Para evitar o pré-treinamento do zero, estendemos o TransMLA para o TransGQLA, que converte um checkpoint GQA pré-treinado em um modelo GQLA; no LLaMA-3-8B, ele comprime o cache KV por token para 28,125% da linha de base GQA no caminho MQA-absorvido, enquanto preserva estruturalmente o tráfego de nível GQA no caminho por grupo.

English

Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matches the H100 roofline almost perfectly. Its trained weights, however, expose only one decoding path - an absorbed MQA form - which ties efficient inference to H100-class compute-bandwidth ratios, forfeits tensor parallelism along the head axis, and yields no Multi-Token Prediction (MTP) gain on commodity inference GPUs such as the export-restricted H20. We propose Group-Query Latent Attention (GQLA), a minimal modification of MLA whose trained weights expose two algebraically equivalent decoding paths over the same parameters: an MQA-absorb path identical to MLA's, and a GQA path with a per-group expanded cache. The runtime picks the path that matches the target hardware - no retraining, no custom kernels - so a single set of GQLA weights pins the rooflines of both H100 (MQA-absorb, s_q=1) and H20 (GQA + MTP, s_q=2), while supporting up to 8-way zero-redundancy tensor parallelism on the GQA path. To avoid pretraining from scratch we extend TransMLA into TransGQLA, which converts a pretrained GQA checkpoint into a GQLA model; on LLaMA-3-8B it compresses the per-token KV cache to 28.125% of the GQA baseline on the MQA-absorb path while structurally preserving GQA-level traffic on the per-group path.