Каскады крупных языковых моделей с представлениями "Смесь мыслей" для экономически эффективного рассуждения

Аннотация

Крупные языковые модели (LLM), такие как GPT-4, продемонстрировали выдающуюся производительность в решении разнообразных задач, однако такая высокая эффективность часто сопровождается значительными затратами на использование платных API-сервисов. В данной статье мы исследуем возможность построения каскада LLM с целью снижения затрат на их использование, особенно для выполнения задач, требующих рассуждений (например, математических или причинно-следственных). Наш каскадный подход основывается на интуиции, что более простые вопросы могут быть решены с помощью менее мощной, но более доступной LLM, тогда как сложные вопросы требуют использования более мощной и дорогостоящей LLM. Для реализации такого принятия решений мы рассматриваем "согласованность ответов" менее мощной LLM как индикатор сложности вопроса и предлагаем несколько методов для выборки ответов и проверки их согласованности, включая метод, использующий смесь двух представлений рассуждений (т.е. Chain-of-Thought и Program-of-Thought). В экспериментах на шести наборах данных для тестирования рассуждений, где GPT-3.5-turbo и GPT-4 выступают в роли менее и более мощной LLM соответственно, мы показываем, что предложенные нами каскады LLM могут достичь производительности, сравнимой с использованием исключительно более мощной LLM, но при этом требуют лишь 40% её затрат.

English

Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.

Каскады крупных языковых моделей с представлениями "Смесь мыслей" для экономически эффективного рассуждения

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

Аннотация

Support