Cascate di Modelli Linguistici di Grande Scala con Rappresentazioni a Miscela di Pensieri per un Ragionamento Efficace in Termini di Costi
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning
October 4, 2023
Autori: Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao
cs.AI
Abstract
I grandi modelli linguistici (LLM) come GPT-4 hanno dimostrato prestazioni notevoli in una varietà di compiti, ma questa forte performance spesso comporta un costo elevato legato all'uso di servizi API a pagamento. In questo articolo, siamo motivati a studiare la costruzione di una cascata di LLM per ridurre i costi associati al loro utilizzo, in particolare per l'esecuzione di compiti di ragionamento (ad esempio, matematici, causali). La nostra pipeline a cascata segue l'intuizione che le domande più semplici possano essere affrontate da un LLM più debole ma più economico, mentre solo le domande più complesse richiedono l'uso di un LLM più potente e costoso. Per realizzare questo processo decisionale, consideriamo la "coerenza della risposta" del LLM più debole come un segnale della difficoltà della domanda e proponiamo diversi metodi per il campionamento delle risposte e il controllo della coerenza, inclusa una tecnica che sfrutta una miscela di due rappresentazioni di pensiero (ovvero, Catena di Pensiero e Programma di Pensiero). Attraverso esperimenti su sei dataset di benchmark di ragionamento, utilizzando GPT-3.5-turbo e GPT-4 rispettivamente come LLM più debole e più forte, dimostriamo che le nostre cascate di LLM proposte possono ottenere prestazioni paragonabili all'uso esclusivo del LLM più forte, ma richiedono solo il 40% del suo costo.
English
Large language models (LLMs) such as GPT-4 have exhibited remarkable
performance in a variety of tasks, but this strong performance often comes with
the high expense of using paid API services. In this paper, we are motivated to
study building an LLM cascade to save the cost of using LLMs, particularly for
performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline
follows the intuition that simpler questions can be addressed by a weaker but
more affordable LLM, whereas only the challenging questions necessitate the
stronger and more expensive LLM. To realize this decision-making, we consider
the "answer consistency" of the weaker LLM as a signal of the question
difficulty and propose several methods for the answer sampling and consistency
checking, including one leveraging a mixture of two thought representations
(i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six
reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and
stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can
achieve performance comparable to using solely the stronger LLM but require
only 40% of its cost.