Modelos de Linguagem de Grande Escala como Otimizadores
Large Language Models as Optimizers
September 7, 2023
Autores: Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen
cs.AI
Resumo
A otimização é onipresente. Embora os algoritmos baseados em derivadas tenham sido ferramentas poderosas para diversos problemas, a ausência de gradiente impõe desafios em muitas aplicações do mundo real. Neste trabalho, propomos a Otimização por PROmpting (OPRO), uma abordagem simples e eficaz para aproveitar modelos de linguagem de grande escala (LLMs) como otimizadores, onde a tarefa de otimização é descrita em linguagem natural. Em cada etapa de otimização, o LLM gera novas soluções a partir do prompt que contém soluções previamente geradas com seus valores, então as novas soluções são avaliadas e adicionadas ao prompt para a próxima etapa de otimização. Primeiro, demonstramos o OPRO em problemas de regressão linear e do caixeiro-viajante, depois passamos para a otimização de prompts, onde o objetivo é encontrar instruções que maximizem a precisão da tarefa. Com uma variedade de LLMs, mostramos que os melhores prompts otimizados pelo OPRO superam os prompts projetados por humanos em até 8% no GSM8K e em até 50% nas tarefas do Big-Bench Hard.
English
Optimization is ubiquitous. While derivative-based algorithms have been
powerful tools for various problems, the absence of gradient imposes challenges
on many real-world applications. In this work, we propose Optimization by
PROmpting (OPRO), a simple and effective approach to leverage large language
models (LLMs) as optimizers, where the optimization task is described in
natural language. In each optimization step, the LLM generates new solutions
from the prompt that contains previously generated solutions with their values,
then the new solutions are evaluated and added to the prompt for the next
optimization step. We first showcase OPRO on linear regression and traveling
salesman problems, then move on to prompt optimization where the goal is to
find instructions that maximize the task accuracy. With a variety of LLMs, we
demonstrate that the best prompts optimized by OPRO outperform human-designed
prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.