Cascate di Modelli Linguistici di Grande Scala con Rappresentazioni a Miscela di Pensieri per un Ragionamento Efficace in Termini di Costi

Abstract

I grandi modelli linguistici (LLM) come GPT-4 hanno dimostrato prestazioni notevoli in una varietà di compiti, ma questa forte performance spesso comporta un costo elevato legato all'uso di servizi API a pagamento. In questo articolo, siamo motivati a studiare la costruzione di una cascata di LLM per ridurre i costi associati al loro utilizzo, in particolare per l'esecuzione di compiti di ragionamento (ad esempio, matematici, causali). La nostra pipeline a cascata segue l'intuizione che le domande più semplici possano essere affrontate da un LLM più debole ma più economico, mentre solo le domande più complesse richiedono l'uso di un LLM più potente e costoso. Per realizzare questo processo decisionale, consideriamo la "coerenza della risposta" del LLM più debole come un segnale della difficoltà della domanda e proponiamo diversi metodi per il campionamento delle risposte e il controllo della coerenza, inclusa una tecnica che sfrutta una miscela di due rappresentazioni di pensiero (ovvero, Catena di Pensiero e Programma di Pensiero). Attraverso esperimenti su sei dataset di benchmark di ragionamento, utilizzando GPT-3.5-turbo e GPT-4 rispettivamente come LLM più debole e più forte, dimostriamo che le nostre cascate di LLM proposte possono ottenere prestazioni paragonabili all'uso esclusivo del LLM più forte, ma richiedono solo il 40% del suo costo.

English

Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.

Cascate di Modelli Linguistici di Grande Scala con Rappresentazioni a Miscela di Pensieri per un Ragionamento Efficace in Termini di Costi

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

Abstract

Support