Cascadas de Modelos de Lenguaje de Gran Escala con Representaciones de Mezcla de Pensamientos para Razonamiento Eficiente en Costos

Resumen

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como GPT-4 han demostrado un rendimiento notable en una variedad de tareas, pero este alto rendimiento suele venir acompañado del elevado costo de utilizar servicios de API de pago. En este artículo, nos motivamos a estudiar la construcción de una cascada de LLMs para reducir el costo de su uso, particularmente en tareas de razonamiento (por ejemplo, matemático, causal). Nuestra canalización en cascada sigue la intuición de que las preguntas más simples pueden ser abordadas por un LLM más débil pero más económico, mientras que solo las preguntas desafiantes requieren el uso de un LLM más potente y costoso. Para implementar esta toma de decisiones, consideramos la "consistencia de la respuesta" del LLM más débil como una señal de la dificultad de la pregunta y proponemos varios métodos para el muestreo de respuestas y la verificación de consistencia, incluyendo uno que aprovecha una mezcla de dos representaciones de pensamiento (es decir, Cadena de Pensamiento y Programa de Pensamiento). A través de experimentos en seis conjuntos de datos de referencia para razonamiento, utilizando GPT-3.5-turbo y GPT-4 como los LLMs más débil y más fuerte, respectivamente, demostramos que nuestras cascadas de LLMs propuestas pueden alcanzar un rendimiento comparable al uso exclusivo del LLM más fuerte, pero requieren solo el 40% de su costo.

English

Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.

Cascadas de Modelos de Lenguaje de Gran Escala con Representaciones de Mezcla de Pensamientos para Razonamiento Eficiente en Costos

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

Resumen

Support