Evaluación económica de métricas de eficiencia en inferencia para APIs de transformadores autoregresivos
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs
May 3, 2023
Autores: Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) impulsan muchos de los sistemas más avanzados en el procesamiento del lenguaje natural. Sin embargo, estos modelos son extremadamente costosos desde el punto de vista computacional, incluso durante la inferencia, lo que plantea la pregunta natural: ¿cuándo vale la pena el costo adicional de implementar un modelo más grande por el aumento anticipado en sus capacidades? Comprender mejor este equilibrio fundamental podría beneficiarse de una métrica de eficiencia de inferencia que sea tanto (i) fácilmente comparable entre modelos de diferentes proveedores, como (ii) representativa del costo real de ejecutar consultas en un entorno de rendimiento aislado. Lamentablemente, el acceso a los LLMs hoy en día está mayormente restringido a APIs de generación de texto de caja negra, y los tiempos de ejecución brutos medidos a través de esta interfaz no satisfacen estos requisitos: los proveedores de modelos pueden aplicar diversas optimizaciones de software y hardware independientes del modelo, y los modelos servidos en infraestructura compartida son susceptibles a la contención de rendimiento. Para sortear estos problemas, proponemos una nueva métrica para comparar la eficiencia de inferencia entre modelos. Esta métrica coloca a los modelos en igualdad de condiciones, como si fueran servidos (i) en hardware y software uniformes, y (ii) sin contención de rendimiento. Llamamos a esta métrica el tiempo de ejecución idealizado, y proponemos una metodología para estimar eficientemente esta métrica para modelos de Transformadores autoregresivos. También proponemos variantes conscientes del costo que incorporan el número de aceleradores necesarios para servir el modelo. Utilizando estas métricas, comparamos diez LLMs de última generación para proporcionar el primer análisis de los equilibrios entre eficiencia de inferencia y capacidades; realizamos varias observaciones a partir de este análisis, incluido el hecho de que el rendimiento superior en tiempo de ejecución de inferencia de ciertas APIs es a menudo un subproducto de optimizaciones dentro de la API en lugar del modelo subyacente. Nuestra metodología también facilita la comparación eficiente de diferentes pilas de software y hardware.
English
Large language models (LLMs) power many state-of-the-art systems in natural
language processing. However, these models are extremely computationally
expensive, even at inference time, raising the natural question: when is the
extra cost of deploying a larger model worth the anticipated boost in
capabilities? Better understanding this tradeoff fundamentally could benefit
from an inference efficiency metric that is both (i) easily comparable across
models from different providers, and (ii) representative of the true cost of
running queries in an isolated performance environment. Unfortunately, access
to LLMs today is largely restricted to black-box text generation APIs and raw
runtimes measured through this interface do not satisfy these desiderata: model
providers can apply various software and hardware optimizations orthogonal to
the model, and models served on shared infrastructure are susceptible to
performance contention. To circumvent these problems, we propose a new metric
for comparing inference efficiency across models. This metric puts models on
equal footing as though they were served (i) on uniform hardware and software,
and (ii) without performance contention. We call this metric the
idealized runtime, and we propose a methodology to efficiently estimate
this metric for autoregressive Transformer models. We also propose cost-aware
variants that incorporate the number of accelerators needed to serve the model.
Using these metrics, we compare ten state-of-the-art LLMs to provide the first
analysis of inference efficiency-capability tradeoffs; we make several
observations from this analysis, including the fact that the superior inference
runtime performance of certain APIs is often a byproduct of optimizations
within the API rather than the underlying model. Our methodology also
facilitates the efficient comparison of different software and hardware stacks.