FrugalGPT: Como Usar Modelos de Linguagem de Grande Escala Reduzindo Custos e Melhorando o Desempenho

Resumo

Há um número crescente de grandes modelos de linguagem (LLMs) que os usuários podem consultar mediante pagamento. Revisamos o custo associado à consulta de APIs populares de LLMs, como GPT-4, ChatGPT, J1-Jumbo, e constatamos que esses modelos possuem estruturas de preços heterogêneas, com taxas que podem variar em até duas ordens de magnitude. Em particular, o uso de LLMs em grandes coleções de consultas e textos pode ser caro. Motivados por isso, delineamos e discutimos três tipos de estratégias que os usuários podem explorar para reduzir o custo de inferência associado ao uso de LLMs: 1) adaptação de prompt, 2) aproximação de LLM e 3) cascata de LLM. Como exemplo, propomos o FrugalGPT, uma instanciação simples, porém flexível, de cascata de LLM que aprende quais combinações de LLMs usar para diferentes consultas a fim de reduzir custos e melhorar a precisão. Nossos experimentos mostram que o FrugalGPT pode igualar o desempenho do melhor LLM individual (por exemplo, GPT-4) com uma redução de custo de até 98% ou melhorar a precisão em relação ao GPT-4 em 4% com o mesmo custo. As ideias e descobertas apresentadas aqui estabelecem uma base para o uso sustentável e eficiente de LLMs.

English

There is a rapidly growing number of large language models (LLMs) that users can query for a fee. We review the cost associated with querying popular LLM APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have heterogeneous pricing structures, with fees that can differ by two orders of magnitude. In particular, using LLMs on large collections of queries and text can be expensive. Motivated by this, we outline and discuss three types of strategies that users can exploit to reduce the inference cost associated with using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM cascade which learns which combinations of LLMs to use for different queries in order to reduce cost and improve accuracy. Our experiments show that FrugalGPT can match the performance of the best individual LLM (e.g. GPT-4) with up to 98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost. The ideas and findings presented here lay a foundation for using LLMs sustainably and efficiently.

FrugalGPT: Como Usar Modelos de Linguagem de Grande Escala Reduzindo Custos e Melhorando o Desempenho

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

Resumo

Support