FrugalGPT: Cómo utilizar modelos de lenguaje de gran escala reduciendo costos y mejorando el rendimiento

Resumen

Existe un número creciente de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) que los usuarios pueden consultar mediante un pago. Revisamos los costos asociados con la consulta de APIs populares de LLMs, como GPT-4, ChatGPT y J1-Jumbo, y encontramos que estos modelos tienen estructuras de precios heterogéneas, con tarifas que pueden variar en dos órdenes de magnitud. En particular, el uso de LLMs en grandes colecciones de consultas y textos puede resultar costoso. Motivados por esto, delineamos y discutimos tres tipos de estrategias que los usuarios pueden aprovechar para reducir el costo de inferencia asociado con el uso de LLMs: 1) adaptación de prompts, 2) aproximación de LLMs y 3) cascada de LLMs. Como ejemplo, proponemos FrugalGPT, una instanciación simple pero flexible de la cascada de LLMs que aprende qué combinaciones de LLMs utilizar para diferentes consultas con el fin de reducir costos y mejorar la precisión. Nuestros experimentos muestran que FrugalGPT puede igualar el rendimiento del mejor LLM individual (por ejemplo, GPT-4) con una reducción de costos de hasta el 98% o mejorar la precisión sobre GPT-4 en un 4% con el mismo costo. Las ideas y hallazgos presentados aquí sientan las bases para el uso sostenible y eficiente de los LLMs.

English

There is a rapidly growing number of large language models (LLMs) that users can query for a fee. We review the cost associated with querying popular LLM APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have heterogeneous pricing structures, with fees that can differ by two orders of magnitude. In particular, using LLMs on large collections of queries and text can be expensive. Motivated by this, we outline and discuss three types of strategies that users can exploit to reduce the inference cost associated with using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM cascade which learns which combinations of LLMs to use for different queries in order to reduce cost and improve accuracy. Our experiments show that FrugalGPT can match the performance of the best individual LLM (e.g. GPT-4) with up to 98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost. The ideas and findings presented here lay a foundation for using LLMs sustainably and efficiently.

FrugalGPT: Cómo utilizar modelos de lenguaje de gran escala reduciendo costos y mejorando el rendimiento

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

Resumen

Support