Каскады крупных языковых моделей с представлениями "Смесь мыслей" для экономически эффективного рассуждения
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning
October 4, 2023
Авторы: Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao
cs.AI
Аннотация
Крупные языковые модели (LLM), такие как GPT-4, продемонстрировали выдающуюся производительность в решении разнообразных задач, однако такая высокая эффективность часто сопровождается значительными затратами на использование платных API-сервисов. В данной статье мы исследуем возможность построения каскада LLM с целью снижения затрат на их использование, особенно для выполнения задач, требующих рассуждений (например, математических или причинно-следственных). Наш каскадный подход основывается на интуиции, что более простые вопросы могут быть решены с помощью менее мощной, но более доступной LLM, тогда как сложные вопросы требуют использования более мощной и дорогостоящей LLM. Для реализации такого принятия решений мы рассматриваем "согласованность ответов" менее мощной LLM как индикатор сложности вопроса и предлагаем несколько методов для выборки ответов и проверки их согласованности, включая метод, использующий смесь двух представлений рассуждений (т.е. Chain-of-Thought и Program-of-Thought). В экспериментах на шести наборах данных для тестирования рассуждений, где GPT-3.5-turbo и GPT-4 выступают в роли менее и более мощной LLM соответственно, мы показываем, что предложенные нами каскады LLM могут достичь производительности, сравнимой с использованием исключительно более мощной LLM, но при этом требуют лишь 40% её затрат.
English
Large language models (LLMs) such as GPT-4 have exhibited remarkable
performance in a variety of tasks, but this strong performance often comes with
the high expense of using paid API services. In this paper, we are motivated to
study building an LLM cascade to save the cost of using LLMs, particularly for
performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline
follows the intuition that simpler questions can be addressed by a weaker but
more affordable LLM, whereas only the challenging questions necessitate the
stronger and more expensive LLM. To realize this decision-making, we consider
the "answer consistency" of the weaker LLM as a signal of the question
difficulty and propose several methods for the answer sampling and consistency
checking, including one leveraging a mixture of two thought representations
(i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six
reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and
stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can
achieve performance comparable to using solely the stronger LLM but require
only 40% of its cost.