Крупные языковые модели в роли оптимизаторов
Large Language Models as Optimizers
September 7, 2023
Авторы: Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen
cs.AI
Аннотация
Оптимизация повсеместна. Хотя алгоритмы, основанные на производных, являются мощными инструментами для решения различных задач, отсутствие градиента создает трудности во многих реальных приложениях. В данной работе мы предлагаем Оптимизацию через ПРОмтинг (OPRO) — простой и эффективный подход, использующий большие языковые модели (LLM) в качестве оптимизаторов, где задача оптимизации описывается на естественном языке. На каждом шаге оптимизации LLM генерирует новые решения из промта, содержащего ранее созданные решения с их значениями, затем новые решения оцениваются и добавляются в промт для следующего шага оптимизации. Сначала мы демонстрируем OPRO на задачах линейной регрессии и задачи коммивояжера, а затем переходим к оптимизации промтов, где цель — найти инструкции, максимизирующие точность выполнения задачи. Используя различные LLM, мы показываем, что лучшие промты, оптимизированные с помощью OPRO, превосходят промты, созданные человеком, на 8% на GSM8K и на 50% на задачах из Big-Bench Hard.
English
Optimization is ubiquitous. While derivative-based algorithms have been
powerful tools for various problems, the absence of gradient imposes challenges
on many real-world applications. In this work, we propose Optimization by
PROmpting (OPRO), a simple and effective approach to leverage large language
models (LLMs) as optimizers, where the optimization task is described in
natural language. In each optimization step, the LLM generates new solutions
from the prompt that contains previously generated solutions with their values,
then the new solutions are evaluated and added to the prompt for the next
optimization step. We first showcase OPRO on linear regression and traveling
salesman problems, then move on to prompt optimization where the goal is to
find instructions that maximize the task accuracy. With a variety of LLMs, we
demonstrate that the best prompts optimized by OPRO outperform human-designed
prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.