FrugalGPT: Hoe grote taalmodellen te gebruiken terwijl de kosten worden verlaagd en de prestaties worden verbeterd
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
May 9, 2023
Auteurs: Lingjiao Chen, Matei Zaharia, James Zou
cs.AI
Samenvatting
Er is een snel groeiend aantal grote taalmodellen (LLM's) waar gebruikers tegen betaling query's op kunnen uitvoeren. We bekijken de kosten die gepaard gaan met het bevragen van populaire LLM-API's, zoals GPT-4, ChatGPT en J1-Jumbo, en constateren dat deze modellen heterogene prijsstructuren hebben, waarbij de kosten met twee ordes van grootte kunnen verschillen. Met name het gebruik van LLM's op grote verzamelingen van query's en tekst kan kostbaar zijn. Gemotiveerd door dit inzicht, beschrijven en bespreken we drie soorten strategieën die gebruikers kunnen toepassen om de inferentiekosten van het gebruik van LLM's te verlagen: 1) promptaanpassing, 2) LLM-benadering, en 3) LLM-cascade. Als voorbeeld stellen we FrugalGPT voor, een eenvoudige maar flexibele implementatie van een LLM-cascade, dat leert welke combinaties van LLM's voor verschillende query's gebruikt moeten worden om de kosten te verlagen en de nauwkeurigheid te verbeteren. Onze experimenten tonen aan dat FrugalGPT de prestaties van het beste individuele LLM (bijvoorbeeld GPT-4) kan evenaren met een kostenreductie van tot 98%, of de nauwkeurigheid ten opzichte van GPT-4 met 4% kan verbeteren tegen dezelfde kosten. De ideeën en bevindingen die hier worden gepresenteerd, leggen een basis voor het duurzame en efficiënte gebruik van LLM's.
English
There is a rapidly growing number of large language models (LLMs) that users
can query for a fee. We review the cost associated with querying popular LLM
APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have
heterogeneous pricing structures, with fees that can differ by two orders of
magnitude. In particular, using LLMs on large collections of queries and text
can be expensive. Motivated by this, we outline and discuss three types of
strategies that users can exploit to reduce the inference cost associated with
using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As
an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM
cascade which learns which combinations of LLMs to use for different queries in
order to reduce cost and improve accuracy. Our experiments show that FrugalGPT
can match the performance of the best individual LLM (e.g. GPT-4) with up to
98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost.
The ideas and findings presented here lay a foundation for using LLMs
sustainably and efficiently.