FrugalGPT: Hoe grote taalmodellen te gebruiken terwijl de kosten worden verlaagd en de prestaties worden verbeterd

Samenvatting

Er is een snel groeiend aantal grote taalmodellen (LLM's) waar gebruikers tegen betaling query's op kunnen uitvoeren. We bekijken de kosten die gepaard gaan met het bevragen van populaire LLM-API's, zoals GPT-4, ChatGPT en J1-Jumbo, en constateren dat deze modellen heterogene prijsstructuren hebben, waarbij de kosten met twee ordes van grootte kunnen verschillen. Met name het gebruik van LLM's op grote verzamelingen van query's en tekst kan kostbaar zijn. Gemotiveerd door dit inzicht, beschrijven en bespreken we drie soorten strategieën die gebruikers kunnen toepassen om de inferentiekosten van het gebruik van LLM's te verlagen: 1) promptaanpassing, 2) LLM-benadering, en 3) LLM-cascade. Als voorbeeld stellen we FrugalGPT voor, een eenvoudige maar flexibele implementatie van een LLM-cascade, dat leert welke combinaties van LLM's voor verschillende query's gebruikt moeten worden om de kosten te verlagen en de nauwkeurigheid te verbeteren. Onze experimenten tonen aan dat FrugalGPT de prestaties van het beste individuele LLM (bijvoorbeeld GPT-4) kan evenaren met een kostenreductie van tot 98%, of de nauwkeurigheid ten opzichte van GPT-4 met 4% kan verbeteren tegen dezelfde kosten. De ideeën en bevindingen die hier worden gepresenteerd, leggen een basis voor het duurzame en efficiënte gebruik van LLM's.

English

There is a rapidly growing number of large language models (LLMs) that users can query for a fee. We review the cost associated with querying popular LLM APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have heterogeneous pricing structures, with fees that can differ by two orders of magnitude. In particular, using LLMs on large collections of queries and text can be expensive. Motivated by this, we outline and discuss three types of strategies that users can exploit to reduce the inference cost associated with using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM cascade which learns which combinations of LLMs to use for different queries in order to reduce cost and improve accuracy. Our experiments show that FrugalGPT can match the performance of the best individual LLM (e.g. GPT-4) with up to 98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost. The ideas and findings presented here lay a foundation for using LLMs sustainably and efficiently.

FrugalGPT: Hoe grote taalmodellen te gebruiken terwijl de kosten worden verlaagd en de prestaties worden verbeterd

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

Samenvatting

Support