Kostengünstige Bewertung von Effizienzmetriken für Inferenz bei autoregressiven Transformer-APIs
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs
May 3, 2023
Autoren: Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) treiben viele state-of-the-art-Systeme in der natürlichen Sprachverarbeitung an. Diese Modelle sind jedoch äußerst rechenintensiv, selbst zur Inferenzzeit, was die naheliegende Frage aufwirft: Wann ist der zusätzliche Aufwand für den Einsatz eines größeren Modells den erwarteten Leistungssteigerungen wert? Ein besseres Verständnis dieses Trade-offs könnte grundlegend von einer Inferenzeffizienzmetrik profitieren, die sowohl (i) leicht vergleichbar über Modelle verschiedener Anbieter hinweg ist als auch (ii) die tatsächlichen Kosten für die Ausführung von Anfragen in einer isolierten Leistungsumgebung repräsentiert. Leider ist der Zugang zu LLMs heute weitgehend auf Black-Box-Textgenerierungs-APIs beschränkt, und die über diese Schnittstelle gemessenen Rohlaufzeiten erfüllen diese Anforderungen nicht: Modellanbieter können verschiedene Software- und Hardware-Optimierungen anwenden, die orthogonal zum Modell stehen, und Modelle, die auf gemeinsam genutzter Infrastruktur betrieben werden, sind anfällig für Leistungsengpässe. Um diese Probleme zu umgehen, schlagen wir eine neue Metrik für den Vergleich der Inferenzeffizienz über Modelle hinweg vor. Diese Metrik stellt Modelle auf eine gleiche Basis, als ob sie (i) auf einheitlicher Hardware und Software betrieben würden und (ii) ohne Leistungsengpässe. Wir nennen diese Metrik die idealisierte Laufzeit und schlagen eine Methode vor, um diese Metrik für autoregressive Transformer-Modelle effizient zu schätzen. Wir schlagen auch kostenbewusste Varianten vor, die die Anzahl der benötigten Beschleuniger für den Betrieb des Modells einbeziehen. Mit diesen Metriken vergleichen wir zehn state-of-the-art-LLMs, um die erste Analyse der Trade-offs zwischen Inferenzeffizienz und Leistungsfähigkeit zu liefern; wir ziehen mehrere Beobachtungen aus dieser Analyse, darunter die Tatsache, dass die überlegene Inferenzlaufzeitleistung bestimmter APIs oft ein Nebenprodukt von Optimierungen innerhalb der API und nicht des zugrunde liegenden Modells ist. Unsere Methodik erleichtert auch den effizienten Vergleich verschiedener Software- und Hardware-Stacks.
English
Large language models (LLMs) power many state-of-the-art systems in natural
language processing. However, these models are extremely computationally
expensive, even at inference time, raising the natural question: when is the
extra cost of deploying a larger model worth the anticipated boost in
capabilities? Better understanding this tradeoff fundamentally could benefit
from an inference efficiency metric that is both (i) easily comparable across
models from different providers, and (ii) representative of the true cost of
running queries in an isolated performance environment. Unfortunately, access
to LLMs today is largely restricted to black-box text generation APIs and raw
runtimes measured through this interface do not satisfy these desiderata: model
providers can apply various software and hardware optimizations orthogonal to
the model, and models served on shared infrastructure are susceptible to
performance contention. To circumvent these problems, we propose a new metric
for comparing inference efficiency across models. This metric puts models on
equal footing as though they were served (i) on uniform hardware and software,
and (ii) without performance contention. We call this metric the
idealized runtime, and we propose a methodology to efficiently estimate
this metric for autoregressive Transformer models. We also propose cost-aware
variants that incorporate the number of accelerators needed to serve the model.
Using these metrics, we compare ten state-of-the-art LLMs to provide the first
analysis of inference efficiency-capability tradeoffs; we make several
observations from this analysis, including the fact that the superior inference
runtime performance of certain APIs is often a byproduct of optimizations
within the API rather than the underlying model. Our methodology also
facilitates the efficient comparison of different software and hardware stacks.