Les grands modèles de langage en tant qu'optimiseurs
Large Language Models as Optimizers
September 7, 2023
Auteurs: Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen
cs.AI
Résumé
L'optimisation est omniprésente. Bien que les algorithmes basés sur les dérivées aient été des outils puissants pour résoudre divers problèmes, l'absence de gradient pose des défis dans de nombreuses applications du monde réel. Dans ce travail, nous proposons l'Optimisation par PROmpting (OPRO), une approche simple et efficace pour exploiter les grands modèles de langage (LLMs) en tant qu'optimiseurs, où la tâche d'optimisation est décrite en langage naturel. À chaque étape d'optimisation, le LLM génère de nouvelles solutions à partir de l'invite (prompt) qui contient les solutions précédemment générées ainsi que leurs valeurs, puis ces nouvelles solutions sont évaluées et ajoutées à l'invite pour l'étape d'optimisation suivante. Nous illustrons d'abord OPRO sur des problèmes de régression linéaire et du voyageur de commerce, puis nous passons à l'optimisation d'invites où l'objectif est de trouver des instructions qui maximisent la précision de la tâche. Avec une variété de LLMs, nous démontrons que les meilleures invites optimisées par OPRO surpassent les invites conçues par des humains jusqu'à 8 % sur GSM8K, et jusqu'à 50 % sur les tâches de Big-Bench Hard.
English
Optimization is ubiquitous. While derivative-based algorithms have been
powerful tools for various problems, the absence of gradient imposes challenges
on many real-world applications. In this work, we propose Optimization by
PROmpting (OPRO), a simple and effective approach to leverage large language
models (LLMs) as optimizers, where the optimization task is described in
natural language. In each optimization step, the LLM generates new solutions
from the prompt that contains previously generated solutions with their values,
then the new solutions are evaluated and added to the prompt for the next
optimization step. We first showcase OPRO on linear regression and traveling
salesman problems, then move on to prompt optimization where the goal is to
find instructions that maximize the task accuracy. With a variety of LLMs, we
demonstrate that the best prompts optimized by OPRO outperform human-designed
prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.