FrugalGPT: Como Usar Modelos de Linguagem de Grande Escala Reduzindo Custos e Melhorando o Desempenho
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
May 9, 2023
Autores: Lingjiao Chen, Matei Zaharia, James Zou
cs.AI
Resumo
Há um número crescente de grandes modelos de linguagem (LLMs) que os usuários podem consultar mediante pagamento. Revisamos o custo associado à consulta de APIs populares de LLMs, como GPT-4, ChatGPT, J1-Jumbo, e constatamos que esses modelos possuem estruturas de preços heterogêneas, com taxas que podem variar em até duas ordens de magnitude. Em particular, o uso de LLMs em grandes coleções de consultas e textos pode ser caro. Motivados por isso, delineamos e discutimos três tipos de estratégias que os usuários podem explorar para reduzir o custo de inferência associado ao uso de LLMs: 1) adaptação de prompt, 2) aproximação de LLM e 3) cascata de LLM. Como exemplo, propomos o FrugalGPT, uma instanciação simples, porém flexível, de cascata de LLM que aprende quais combinações de LLMs usar para diferentes consultas a fim de reduzir custos e melhorar a precisão. Nossos experimentos mostram que o FrugalGPT pode igualar o desempenho do melhor LLM individual (por exemplo, GPT-4) com uma redução de custo de até 98% ou melhorar a precisão em relação ao GPT-4 em 4% com o mesmo custo. As ideias e descobertas apresentadas aqui estabelecem uma base para o uso sustentável e eficiente de LLMs.
English
There is a rapidly growing number of large language models (LLMs) that users
can query for a fee. We review the cost associated with querying popular LLM
APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have
heterogeneous pricing structures, with fees that can differ by two orders of
magnitude. In particular, using LLMs on large collections of queries and text
can be expensive. Motivated by this, we outline and discuss three types of
strategies that users can exploit to reduce the inference cost associated with
using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As
an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM
cascade which learns which combinations of LLMs to use for different queries in
order to reduce cost and improve accuracy. Our experiments show that FrugalGPT
can match the performance of the best individual LLM (e.g. GPT-4) with up to
98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost.
The ideas and findings presented here lay a foundation for using LLMs
sustainably and efficiently.