ChatPaper.aiChatPaper

InstructZero: Otimização Eficiente de Instruções para Modelos de Linguagem de Grande Escala em Caixa Preta

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models

June 5, 2023
Autores: Lichang Chen, Jiuhai Chen, Tom Goldstein, Heng Huang, Tianyi Zhou
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) são seguidores de instruções, mas pode ser desafiador encontrar a melhor instrução para diferentes situações, especialmente para LLMs de caixa preta nos quais a retropropagação é proibida. Em vez de otimizar diretamente a instrução discreta, otimizamos um prompt suave de baixa dimensão aplicado a um LLM de código aberto para gerar a instrução para o LLM de caixa preta. Em cada iteração do método proposto, que chamamos de InstructZero, um prompt suave é convertido em uma instrução usando o LLM de código aberto, que é então submetido ao LLM de caixa preta para avaliação zero-shot, e o desempenho é enviado para otimização bayesiana para produzir novos prompts suaves que melhoram o desempenho zero-shot. Avaliamos o InstructZero em diferentes combinações de LLMs de código aberto e APIs, incluindo Vicuna e ChatGPT. Nossos resultados mostram que o InstructZero supera os métodos de auto-instrução de última geração (SOTA) em uma variedade de tarefas subsequentes. Nosso código e dados estão publicamente disponíveis em https://github.com/Lichang-Chen/InstructZero.
English
Large language models~(LLMs) are instruction followers, but it can be challenging to find the best instruction for different situations, especially for black-box LLMs on which backpropagation is forbidden. Instead of directly optimizing the discrete instruction, we optimize a low-dimensional soft prompt applied to an open-source LLM to generate the instruction for the black-box LLM. On each iteration of the proposed method, which we call InstructZero, a soft prompt is converted into an instruction using the open-source LLM, which is then submitted to the black-box LLM for zero-shot evaluation, and the performance is sent to Bayesian optimization to produce new soft prompts improving the zero-shot performance. We evaluate InstructZero on different combinations of open-source LLMs and APIs including Vicuna and ChatGPT. Our results show that InstructZero outperforms SOTA auto-instruction methods across a variety of downstream tasks. Our code and data are publicly available at https://github.com/Lichang-Chen/InstructZero.
PDF50February 8, 2026