Cascadas de Modelos de Lenguaje de Gran Escala con Representaciones de Mezcla de Pensamientos para Razonamiento Eficiente en Costos
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning
October 4, 2023
Autores: Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como GPT-4 han demostrado un rendimiento notable en una variedad de tareas, pero este alto rendimiento suele venir acompañado del elevado costo de utilizar servicios de API de pago. En este artículo, nos motivamos a estudiar la construcción de una cascada de LLMs para reducir el costo de su uso, particularmente en tareas de razonamiento (por ejemplo, matemático, causal). Nuestra canalización en cascada sigue la intuición de que las preguntas más simples pueden ser abordadas por un LLM más débil pero más económico, mientras que solo las preguntas desafiantes requieren el uso de un LLM más potente y costoso. Para implementar esta toma de decisiones, consideramos la "consistencia de la respuesta" del LLM más débil como una señal de la dificultad de la pregunta y proponemos varios métodos para el muestreo de respuestas y la verificación de consistencia, incluyendo uno que aprovecha una mezcla de dos representaciones de pensamiento (es decir, Cadena de Pensamiento y Programa de Pensamiento). A través de experimentos en seis conjuntos de datos de referencia para razonamiento, utilizando GPT-3.5-turbo y GPT-4 como los LLMs más débil y más fuerte, respectivamente, demostramos que nuestras cascadas de LLMs propuestas pueden alcanzar un rendimiento comparable al uso exclusivo del LLM más fuerte, pero requieren solo el 40% de su costo.
English
Large language models (LLMs) such as GPT-4 have exhibited remarkable
performance in a variety of tasks, but this strong performance often comes with
the high expense of using paid API services. In this paper, we are motivated to
study building an LLM cascade to save the cost of using LLMs, particularly for
performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline
follows the intuition that simpler questions can be addressed by a weaker but
more affordable LLM, whereas only the challenging questions necessitate the
stronger and more expensive LLM. To realize this decision-making, we consider
the "answer consistency" of the weaker LLM as a signal of the question
difficulty and propose several methods for the answer sampling and consistency
checking, including one leveraging a mixture of two thought representations
(i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six
reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and
stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can
achieve performance comparable to using solely the stronger LLM but require
only 40% of its cost.