Grote Taalmodellen als Optimalisatoren
Large Language Models as Optimizers
September 7, 2023
Auteurs: Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen
cs.AI
Samenvatting
Optimalisatie is alomtegenwoordig. Hoewel algoritmen gebaseerd op afgeleiden krachtige tools zijn geweest voor diverse problemen, vormt de afwezigheid van een gradiënt een uitdaging voor veel real-world toepassingen. In dit werk stellen we Optimalisatie door PROmpting (OPRO) voor, een eenvoudige en effectieve benadering om grote taalmodellen (LLMs) in te zetten als optimalisatoren, waarbij de optimalisatietaak wordt beschreven in natuurlijke taal. In elke optimalisatiestap genereert het LLM nieuwe oplossingen vanuit de prompt die eerder gegenereerde oplossingen met hun waarden bevat, waarna de nieuwe oplossingen worden geëvalueerd en toegevoegd aan de prompt voor de volgende optimalisatiestap. We demonstreren OPRO eerst op lineaire regressie en het handelsreizigersprobleem, en gaan vervolgens over naar promptoptimalisatie, waarbij het doel is om instructies te vinden die de taaknauwkeurigheid maximaliseren. Met een verscheidenheid aan LLMs laten we zien dat de beste prompts geoptimaliseerd door OPRO menselijk ontworpen prompts overtreffen met tot 8% op GSM8K, en met tot 50% op Big-Bench Hard taken.
English
Optimization is ubiquitous. While derivative-based algorithms have been
powerful tools for various problems, the absence of gradient imposes challenges
on many real-world applications. In this work, we propose Optimization by
PROmpting (OPRO), a simple and effective approach to leverage large language
models (LLMs) as optimizers, where the optimization task is described in
natural language. In each optimization step, the LLM generates new solutions
from the prompt that contains previously generated solutions with their values,
then the new solutions are evaluated and added to the prompt for the next
optimization step. We first showcase OPRO on linear regression and traveling
salesman problems, then move on to prompt optimization where the goal is to
find instructions that maximize the task accuracy. With a variety of LLMs, we
demonstrate that the best prompts optimized by OPRO outperform human-designed
prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.