Große Sprachmodelle als Optimierer
Large Language Models as Optimizers
September 7, 2023
Autoren: Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen
cs.AI
Zusammenfassung
Optimierung ist allgegenwärtig. Während derivativebasierte Algorithmen leistungsstarke Werkzeuge für verschiedene Probleme darstellen, stellt das Fehlen von Gradienten eine Herausforderung für viele reale Anwendungen dar. In dieser Arbeit schlagen wir Optimization by PROmpting (OPRO) vor, einen einfachen und effektiven Ansatz, um große Sprachmodelle (LLMs) als Optimierer zu nutzen, wobei die Optimierungsaufgabe in natürlicher Sprache beschrieben wird. In jedem Optimierungsschritt generiert das LLM neue Lösungen aus dem Prompt, der zuvor generierte Lösungen mit ihren Werten enthält. Anschließend werden die neuen Lösungen bewertet und dem Prompt für den nächsten Optimierungsschritt hinzugefügt. Wir demonstrieren OPRO zunächst anhand von linearen Regressionen und dem Problem des Handlungsreisenden, bevor wir uns der Prompt-Optimierung widmen, bei der es darum geht, Anweisungen zu finden, die die Aufgabengenauigkeit maximieren. Mit einer Vielzahl von LLMs zeigen wir, dass die besten durch OPRO optimierten Prompts menschengestaltete Prompts um bis zu 8 % auf GSM8K und um bis zu 50 % auf Big-Bench-Hard-Aufgaben übertreffen.
English
Optimization is ubiquitous. While derivative-based algorithms have been
powerful tools for various problems, the absence of gradient imposes challenges
on many real-world applications. In this work, we propose Optimization by
PROmpting (OPRO), a simple and effective approach to leverage large language
models (LLMs) as optimizers, where the optimization task is described in
natural language. In each optimization step, the LLM generates new solutions
from the prompt that contains previously generated solutions with their values,
then the new solutions are evaluated and added to the prompt for the next
optimization step. We first showcase OPRO on linear regression and traveling
salesman problems, then move on to prompt optimization where the goal is to
find instructions that maximize the task accuracy. With a variety of LLMs, we
demonstrate that the best prompts optimized by OPRO outperform human-designed
prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.