FrugalGPT: Cómo utilizar modelos de lenguaje de gran escala reduciendo costos y mejorando el rendimiento
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
May 9, 2023
Autores: Lingjiao Chen, Matei Zaharia, James Zou
cs.AI
Resumen
Existe un número creciente de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) que los usuarios pueden consultar mediante un pago. Revisamos los costos asociados con la consulta de APIs populares de LLMs, como GPT-4, ChatGPT y J1-Jumbo, y encontramos que estos modelos tienen estructuras de precios heterogéneas, con tarifas que pueden variar en dos órdenes de magnitud. En particular, el uso de LLMs en grandes colecciones de consultas y textos puede resultar costoso. Motivados por esto, delineamos y discutimos tres tipos de estrategias que los usuarios pueden aprovechar para reducir el costo de inferencia asociado con el uso de LLMs: 1) adaptación de prompts, 2) aproximación de LLMs y 3) cascada de LLMs. Como ejemplo, proponemos FrugalGPT, una instanciación simple pero flexible de la cascada de LLMs que aprende qué combinaciones de LLMs utilizar para diferentes consultas con el fin de reducir costos y mejorar la precisión. Nuestros experimentos muestran que FrugalGPT puede igualar el rendimiento del mejor LLM individual (por ejemplo, GPT-4) con una reducción de costos de hasta el 98% o mejorar la precisión sobre GPT-4 en un 4% con el mismo costo. Las ideas y hallazgos presentados aquí sientan las bases para el uso sostenible y eficiente de los LLMs.
English
There is a rapidly growing number of large language models (LLMs) that users
can query for a fee. We review the cost associated with querying popular LLM
APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have
heterogeneous pricing structures, with fees that can differ by two orders of
magnitude. In particular, using LLMs on large collections of queries and text
can be expensive. Motivated by this, we outline and discuss three types of
strategies that users can exploit to reduce the inference cost associated with
using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As
an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM
cascade which learns which combinations of LLMs to use for different queries in
order to reduce cost and improve accuracy. Our experiments show that FrugalGPT
can match the performance of the best individual LLM (e.g. GPT-4) with up to
98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost.
The ideas and findings presented here lay a foundation for using LLMs
sustainably and efficiently.