Cascades de grands modèles de langage avec des représentations de mélange de pensées pour un raisonnement économique
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning
October 4, 2023
papers.authors: Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao
cs.AI
papers.abstract
Les grands modèles de langage (LLM) tels que GPT-4 ont démontré des performances remarquables dans une variété de tâches, mais cette forte performance s'accompagne souvent de coûts élevés liés à l'utilisation de services API payants. Dans cet article, nous sommes motivés à étudier la construction d'une cascade de LLM pour réduire les coûts d'utilisation de ces modèles, en particulier pour des tâches de raisonnement (par exemple, mathématique, causal). Notre pipeline en cascade suit l'intuition que les questions plus simples peuvent être traitées par un LLM moins puissant mais plus abordable, tandis que seules les questions complexes nécessitent un LLM plus fort et plus coûteux. Pour réaliser cette prise de décision, nous considérons la "cohérence des réponses" du LLM plus faible comme un indicateur de la difficulté de la question et proposons plusieurs méthodes pour l'échantillonnage des réponses et la vérification de la cohérence, y compris une méthode exploitant un mélange de deux représentations de pensée (c'est-à-dire, Chain-of-Thought et Program-of-Thought). À travers des expériences sur six ensembles de données de référence pour le raisonnement, avec GPT-3.5-turbo et GPT-4 comme LLM plus faible et plus fort respectivement, nous démontrons que nos cascades de LLM proposées peuvent atteindre des performances comparables à l'utilisation exclusive du LLM plus fort, tout en nécessitant seulement 40 % de son coût.
English
Large language models (LLMs) such as GPT-4 have exhibited remarkable
performance in a variety of tasks, but this strong performance often comes with
the high expense of using paid API services. In this paper, we are motivated to
study building an LLM cascade to save the cost of using LLMs, particularly for
performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline
follows the intuition that simpler questions can be addressed by a weaker but
more affordable LLM, whereas only the challenging questions necessitate the
stronger and more expensive LLM. To realize this decision-making, we consider
the "answer consistency" of the weaker LLM as a signal of the question
difficulty and propose several methods for the answer sampling and consistency
checking, including one leveraging a mixture of two thought representations
(i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six
reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and
stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can
achieve performance comparable to using solely the stronger LLM but require
only 40% of its cost.