Avaliação Econômica de Métricas de Eficiência de Inferência para APIs de Transformadores Autoregressivos
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs
May 3, 2023
Autores: Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) impulsionam muitos sistemas de ponta em processamento de linguagem natural. No entanto, esses modelos são extremamente caros computacionalmente, mesmo no momento da inferência, levantando a questão natural: quando o custo adicional de implantar um modelo maior vale o aumento esperado nas capacidades? Compreender melhor essa compensação fundamentalmente poderia se beneficiar de uma métrica de eficiência de inferência que seja (i) facilmente comparável entre modelos de diferentes provedores e (ii) representativa do custo real de executar consultas em um ambiente de desempenho isolado. Infelizmente, o acesso a LLMs hoje é amplamente restrito a APIs de geração de texto em caixa preta, e tempos de execução brutos medidos por meio dessa interface não atendem a esses requisitos: provedores de modelos podem aplicar várias otimizações de software e hardware ortogonais ao modelo, e modelos servidos em infraestrutura compartilhada estão sujeitos a contenção de desempenho. Para contornar esses problemas, propomos uma nova métrica para comparar a eficiência de inferência entre modelos. Essa métrica coloca os modelos em pé de igualdade, como se fossem servidos (i) em hardware e software uniformes e (ii) sem contenção de desempenho. Chamamos essa métrica de tempo de execução idealizado e propomos uma metodologia para estimar eficientemente essa métrica para modelos de Transformers autoregressivos. Também propomos variantes conscientes do custo que incorporam o número de aceleradores necessários para servir o modelo. Usando essas métricas, comparamos dez LLMs de ponta para fornecer a primeira análise das compensações entre eficiência de inferência e capacidade; fazemos várias observações a partir dessa análise, incluindo o fato de que o desempenho superior de tempo de execução de inferência de certas APIs é frequentemente um subproduto de otimizações dentro da API, em vez do modelo subjacente. Nossa metodologia também facilita a comparação eficiente de diferentes pilhas de software e hardware.
English
Large language models (LLMs) power many state-of-the-art systems in natural
language processing. However, these models are extremely computationally
expensive, even at inference time, raising the natural question: when is the
extra cost of deploying a larger model worth the anticipated boost in
capabilities? Better understanding this tradeoff fundamentally could benefit
from an inference efficiency metric that is both (i) easily comparable across
models from different providers, and (ii) representative of the true cost of
running queries in an isolated performance environment. Unfortunately, access
to LLMs today is largely restricted to black-box text generation APIs and raw
runtimes measured through this interface do not satisfy these desiderata: model
providers can apply various software and hardware optimizations orthogonal to
the model, and models served on shared infrastructure are susceptible to
performance contention. To circumvent these problems, we propose a new metric
for comparing inference efficiency across models. This metric puts models on
equal footing as though they were served (i) on uniform hardware and software,
and (ii) without performance contention. We call this metric the
idealized runtime, and we propose a methodology to efficiently estimate
this metric for autoregressive Transformer models. We also propose cost-aware
variants that incorporate the number of accelerators needed to serve the model.
Using these metrics, we compare ten state-of-the-art LLMs to provide the first
analysis of inference efficiency-capability tradeoffs; we make several
observations from this analysis, including the fact that the superior inference
runtime performance of certain APIs is often a byproduct of optimizations
within the API rather than the underlying model. Our methodology also
facilitates the efficient comparison of different software and hardware stacks.