Cascades de grands modèles de langage avec des représentations de mélange de pensées pour un raisonnement économique

papers.abstract

Les grands modèles de langage (LLM) tels que GPT-4 ont démontré des performances remarquables dans une variété de tâches, mais cette forte performance s'accompagne souvent de coûts élevés liés à l'utilisation de services API payants. Dans cet article, nous sommes motivés à étudier la construction d'une cascade de LLM pour réduire les coûts d'utilisation de ces modèles, en particulier pour des tâches de raisonnement (par exemple, mathématique, causal). Notre pipeline en cascade suit l'intuition que les questions plus simples peuvent être traitées par un LLM moins puissant mais plus abordable, tandis que seules les questions complexes nécessitent un LLM plus fort et plus coûteux. Pour réaliser cette prise de décision, nous considérons la "cohérence des réponses" du LLM plus faible comme un indicateur de la difficulté de la question et proposons plusieurs méthodes pour l'échantillonnage des réponses et la vérification de la cohérence, y compris une méthode exploitant un mélange de deux représentations de pensée (c'est-à-dire, Chain-of-Thought et Program-of-Thought). À travers des expériences sur six ensembles de données de référence pour le raisonnement, avec GPT-3.5-turbo et GPT-4 comme LLM plus faible et plus fort respectivement, nous démontrons que nos cascades de LLM proposées peuvent atteindre des performances comparables à l'utilisation exclusive du LLM plus fort, tout en nécessitant seulement 40 % de son coût.

English

Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.

Cascades de grands modèles de langage avec des représentations de mélange de pensées pour un raisonnement économique

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

papers.abstract

Support