Évaluation économique des métriques d'efficacité d'inférence pour les API de transformateurs autorégressifs
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs
May 3, 2023
Auteurs: Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang
cs.AI
Résumé
Les grands modèles de langage (LLMs) alimentent de nombreux systèmes de pointe en traitement du langage naturel. Cependant, ces modèles sont extrêmement coûteux en termes de calcul, même au moment de l'inférence, ce qui soulève une question naturelle : quand le coût supplémentaire du déploiement d'un modèle plus grand justifie-t-il l'amélioration anticipée des capacités ? Une meilleure compréhension de ce compromis pourrait fondamentalement bénéficier d'une métrique d'efficacité d'inférence qui soit à la fois (i) facilement comparable entre les modèles de différents fournisseurs, et (ii) représentative du coût réel de l'exécution des requêtes dans un environnement de performance isolé. Malheureusement, l'accès aux LLMs aujourd'hui est largement limité à des API de génération de texte en boîte noire, et les temps d'exécution bruts mesurés via cette interface ne satisfont pas ces critères : les fournisseurs de modèles peuvent appliquer diverses optimisations logicielles et matérielles orthogonales au modèle, et les modèles hébergés sur une infrastructure partagée sont susceptibles de subir des conflits de performance. Pour contourner ces problèmes, nous proposons une nouvelle métrique pour comparer l'efficacité d'inférence entre les modèles. Cette métrique place les modèles sur un pied d'égalité comme s'ils étaient hébergés (i) sur un matériel et un logiciel uniformes, et (ii) sans conflit de performance. Nous appelons cette métrique le temps d'exécution idéalisé, et nous proposons une méthodologie pour estimer efficacement cette métrique pour les modèles Transformer autorégressifs. Nous proposons également des variantes prenant en compte le coût, qui intègrent le nombre d'accélérateurs nécessaires pour héberger le modèle. En utilisant ces métriques, nous comparons dix LLMs de pointe pour fournir la première analyse des compromis entre efficacité d'inférence et capacités ; nous tirons plusieurs observations de cette analyse, notamment le fait que la performance supérieure en temps d'exécution de certaines API est souvent un sous-produit des optimisations au sein de l'API plutôt que du modèle sous-jacent. Notre méthodologie facilite également la comparaison efficace de différentes piles logicielles et matérielles.
English
Large language models (LLMs) power many state-of-the-art systems in natural
language processing. However, these models are extremely computationally
expensive, even at inference time, raising the natural question: when is the
extra cost of deploying a larger model worth the anticipated boost in
capabilities? Better understanding this tradeoff fundamentally could benefit
from an inference efficiency metric that is both (i) easily comparable across
models from different providers, and (ii) representative of the true cost of
running queries in an isolated performance environment. Unfortunately, access
to LLMs today is largely restricted to black-box text generation APIs and raw
runtimes measured through this interface do not satisfy these desiderata: model
providers can apply various software and hardware optimizations orthogonal to
the model, and models served on shared infrastructure are susceptible to
performance contention. To circumvent these problems, we propose a new metric
for comparing inference efficiency across models. This metric puts models on
equal footing as though they were served (i) on uniform hardware and software,
and (ii) without performance contention. We call this metric the
idealized runtime, and we propose a methodology to efficiently estimate
this metric for autoregressive Transformer models. We also propose cost-aware
variants that incorporate the number of accelerators needed to serve the model.
Using these metrics, we compare ten state-of-the-art LLMs to provide the first
analysis of inference efficiency-capability tradeoffs; we make several
observations from this analysis, including the fact that the superior inference
runtime performance of certain APIs is often a byproduct of optimizations
within the API rather than the underlying model. Our methodology also
facilitates the efficient comparison of different software and hardware stacks.