Valutazione Economica delle Metriche di Efficienza Inferenziale per API di Trasformatori Autoregressivi
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs
May 3, 2023
Autori: Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang
cs.AI
Abstract
I grandi modelli linguistici (LLM) alimentano molti sistemi all'avanguardia nell'elaborazione del linguaggio naturale. Tuttavia, questi modelli sono estremamente costosi dal punto di vista computazionale, anche durante l'inferenza, sollevando una domanda naturale: quando il costo aggiuntivo di implementare un modello più grande giustifica il previsto incremento delle capacità? Una migliore comprensione di questo compromesso potrebbe trarre vantaggio da una metrica di efficienza nell'inferenza che sia sia (i) facilmente confrontabile tra modelli di diversi fornitori, sia (ii) rappresentativa del costo reale di eseguire query in un ambiente di performance isolato. Purtroppo, l'accesso agli LLM oggi è largamente limitato a API di generazione di testo in modalità "black-box", e i tempi di esecuzione grezzi misurati attraverso questa interfaccia non soddisfano questi requisiti: i fornitori di modelli possono applicare varie ottimizzazioni software e hardware ortogonali al modello, e i modelli serviti su infrastrutture condivise sono suscettibili a contese di prestazioni. Per aggirare questi problemi, proponiamo una nuova metrica per confrontare l'efficienza nell'inferenza tra i modelli. Questa metrica pone i modelli su un piano di parità come se fossero serviti (i) su hardware e software uniformi, e (ii) senza contese di prestazioni. Chiamiamo questa metrica il tempo di esecuzione idealizzato, e proponiamo una metodologia per stimare in modo efficiente questa metrica per i modelli Transformer autoregressivi. Proponiamo anche varianti consapevoli del costo che incorporano il numero di acceleratori necessari per servire il modello. Utilizzando queste metriche, confrontiamo dieci LLM all'avanguardia per fornire la prima analisi dei compromessi tra efficienza nell'inferenza e capacità; traiamo diverse osservazioni da questa analisi, incluso il fatto che la superiore performance nel tempo di esecuzione di alcune API è spesso un sottoprodotto di ottimizzazioni all'interno dell'API piuttosto che del modello sottostante. La nostra metodologia facilita anche il confronto efficiente di diversi stack software e hardware.
English
Large language models (LLMs) power many state-of-the-art systems in natural
language processing. However, these models are extremely computationally
expensive, even at inference time, raising the natural question: when is the
extra cost of deploying a larger model worth the anticipated boost in
capabilities? Better understanding this tradeoff fundamentally could benefit
from an inference efficiency metric that is both (i) easily comparable across
models from different providers, and (ii) representative of the true cost of
running queries in an isolated performance environment. Unfortunately, access
to LLMs today is largely restricted to black-box text generation APIs and raw
runtimes measured through this interface do not satisfy these desiderata: model
providers can apply various software and hardware optimizations orthogonal to
the model, and models served on shared infrastructure are susceptible to
performance contention. To circumvent these problems, we propose a new metric
for comparing inference efficiency across models. This metric puts models on
equal footing as though they were served (i) on uniform hardware and software,
and (ii) without performance contention. We call this metric the
idealized runtime, and we propose a methodology to efficiently estimate
this metric for autoregressive Transformer models. We also propose cost-aware
variants that incorporate the number of accelerators needed to serve the model.
Using these metrics, we compare ten state-of-the-art LLMs to provide the first
analysis of inference efficiency-capability tradeoffs; we make several
observations from this analysis, including the fact that the superior inference
runtime performance of certain APIs is often a byproduct of optimizations
within the API rather than the underlying model. Our methodology also
facilitates the efficient comparison of different software and hardware stacks.