GQLA: Групповое запросное латентное внимание для аппаратно-адаптивного декодирования больших языковых моделей

Аннотация

Многоголовое латентное внимание (MLA), применяемое в DeepSeek-V2/V3, совместно сжимает ключи и значения в низкоранговое латентное представление и почти идеально соответствует roofline-модели H100. Однако его обученные веса предоставляют только один путь декодирования — поглощённую форму MQA, что привязывает эффективный инференс к соотношениям вычислительной мощности и пропускной способности уровня H100, исключает тензорный параллелизм по оси головок и не даёт выигрыша в многотокенном предсказании (MTP) на массовых инференс-графических процессорах (GPU), таких как экспортно-ограниченный H20. Мы предлагаем групповое-запросное латентное внимание (GQLA) — минимальную модификацию MLA, обученные веса которой предоставляют два алгебраически эквивалентных пути декодирования поверх одних и тех же параметров: путь с поглощением MQA, идентичный пути MLA, и путь GQA с расширенным кэшем для каждой группы. Во время выполнения выбирается путь, соответствующий целевому аппаратному обеспечению — без переобучения и без специальных ядер, — так что единый набор весов GQLA привязывает roofline как H100 (поглощение MQA, s_q=1), так и H20 (GQA + MTP, s_q=2), поддерживая при этом до 8-кратного тензорного параллелизма с нулевой избыточностью на пути GQA. Чтобы избежать обучения с нуля, мы расширяем TransMLA до TransGQLA, который преобразует предобученную контрольную точку GQA в модель GQLA; на LLaMA-3-8B это снижает объём поэлементного KV-кэша до 28,125% от базового GQA на пути с поглощением MQA, структурно сохраняя трафик уровня GQA на групповом пути.

English

Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matches the H100 roofline almost perfectly. Its trained weights, however, expose only one decoding path - an absorbed MQA form - which ties efficient inference to H100-class compute-bandwidth ratios, forfeits tensor parallelism along the head axis, and yields no Multi-Token Prediction (MTP) gain on commodity inference GPUs such as the export-restricted H20. We propose Group-Query Latent Attention (GQLA), a minimal modification of MLA whose trained weights expose two algebraically equivalent decoding paths over the same parameters: an MQA-absorb path identical to MLA's, and a GQA path with a per-group expanded cache. The runtime picks the path that matches the target hardware - no retraining, no custom kernels - so a single set of GQLA weights pins the rooflines of both H100 (MQA-absorb, s_q=1) and H20 (GQA + MTP, s_q=2), while supporting up to 8-way zero-redundancy tensor parallelism on the GQA path. To avoid pretraining from scratch we extend TransMLA into TransGQLA, which converts a pretrained GQA checkpoint into a GQLA model; on LLaMA-3-8B it compresses the per-token KV cache to 28.125% of the GQA baseline on the MQA-absorb path while structurally preserving GQA-level traffic on the per-group path.