ChatPaper.aiChatPaper

Attenzione a Query Raggruppate Ottimizzata in Termini di Costo per LLM con Contesti Lunghi

Cost-Optimal Grouped-Query Attention for Long-Context LLMs

March 12, 2025
Autori: Yingfa Chen, Yutong Wu, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

Abstract

La costruzione di modelli linguistici di grandi dimensioni (LLM) basati su Transformer efficaci ed efficienti è recentemente diventata un focus di ricerca, richiedendo la massimizzazione delle capacità linguistiche del modello e la minimizzazione dei costi di addestramento e distribuzione. Gli sforzi esistenti hanno principalmente descritto relazioni complesse tra le prestazioni del modello, la dimensione dei parametri e la dimensione dei dati, oltre a cercare l'allocazione ottimale delle risorse computazionali per addestrare gli LLM. Tuttavia, trascurano gli impatti della lunghezza del contesto e della configurazione delle teste di attenzione (il numero di teste di query e key-value nell'attenzione a query raggruppate) sull'addestramento e sull'inferenza. In questo articolo, confrontiamo sistematicamente modelli con diverse dimensioni dei parametri, lunghezze del contesto e configurazioni delle teste di attenzione in termini di prestazioni del modello, costi computazionali e costi di memoria. Successivamente, estendiamo i metodi di scalatura esistenti, basati esclusivamente sulla dimensione dei parametri e sulle risorse computazionali di addestramento, per guidare la costruzione di LLM ottimali in termini di costi sia durante l'addestramento che durante l'inferenza. I nostri studi quantitativi di scalatura dimostrano che, quando si elaborano sequenze sufficientemente lunghe, un modello più grande con meno teste di attenzione può raggiungere una perdita inferiore pur comportando costi computazionali e di memoria più bassi. Le nostre scoperte forniscono preziose intuizioni per lo sviluppo di LLM pratici, specialmente in scenari di elaborazione con contesti lunghi. Rilasceremo pubblicamente il nostro codice e i nostri dati.
English
Building effective and efficient Transformer-based large language models (LLMs) has recently become a research focus, requiring maximizing model language capabilities and minimizing training and deployment costs. Existing efforts have primarily described complex relationships among model performance, parameter size, and data size, as well as searched for the optimal compute allocation to train LLMs. However, they overlook the impacts of context length and attention head configuration (the number of query and key-value heads in grouped-query attention) on training and inference. In this paper, we systematically compare models with different parameter sizes, context lengths, and attention head configurations in terms of model performance, computational cost, and memory cost. Then, we extend the existing scaling methods, which are based solely on parameter size and training compute, to guide the construction of cost-optimal LLMs during both training and inference. Our quantitative scaling studies show that, when processing sufficiently long sequences, a larger model with fewer attention heads can achieve a lower loss while incurring lower computational and memory costs. Our findings provide valuable insights for developing practical LLMs, especially in long-context processing scenarios. We will publicly release our code and data.
PDF52March 13, 2025