InstructZero: Otimização Eficiente de Instruções para Modelos de Linguagem de Grande Escala em Caixa Preta

Resumo

Modelos de linguagem de grande escala (LLMs) são seguidores de instruções, mas pode ser desafiador encontrar a melhor instrução para diferentes situações, especialmente para LLMs de caixa preta nos quais a retropropagação é proibida. Em vez de otimizar diretamente a instrução discreta, otimizamos um prompt suave de baixa dimensão aplicado a um LLM de código aberto para gerar a instrução para o LLM de caixa preta. Em cada iteração do método proposto, que chamamos de InstructZero, um prompt suave é convertido em uma instrução usando o LLM de código aberto, que é então submetido ao LLM de caixa preta para avaliação zero-shot, e o desempenho é enviado para otimização bayesiana para produzir novos prompts suaves que melhoram o desempenho zero-shot. Avaliamos o InstructZero em diferentes combinações de LLMs de código aberto e APIs, incluindo Vicuna e ChatGPT. Nossos resultados mostram que o InstructZero supera os métodos de auto-instrução de última geração (SOTA) em uma variedade de tarefas subsequentes. Nosso código e dados estão publicamente disponíveis em https://github.com/Lichang-Chen/InstructZero.

English

Large language models~(LLMs) are instruction followers, but it can be challenging to find the best instruction for different situations, especially for black-box LLMs on which backpropagation is forbidden. Instead of directly optimizing the discrete instruction, we optimize a low-dimensional soft prompt applied to an open-source LLM to generate the instruction for the black-box LLM. On each iteration of the proposed method, which we call InstructZero, a soft prompt is converted into an instruction using the open-source LLM, which is then submitted to the black-box LLM for zero-shot evaluation, and the performance is sent to Bayesian optimization to produce new soft prompts improving the zero-shot performance. We evaluate InstructZero on different combinations of open-source LLMs and APIs including Vicuna and ChatGPT. Our results show that InstructZero outperforms SOTA auto-instruction methods across a variety of downstream tasks. Our code and data are publicly available at https://github.com/Lichang-Chen/InstructZero.

InstructZero: Otimização Eficiente de Instruções para Modelos de Linguagem de Grande Escala em Caixa Preta

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models

Resumo

Support