ChatPaper.aiChatPaper

InstructZero: Optimización Eficiente de Instrucciones para Modelos de Lenguaje de Gran Escala de Caja Negra

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models

June 5, 2023
Autores: Lichang Chen, Jiuhai Chen, Tom Goldstein, Heng Huang, Tianyi Zhou
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son seguidores de instrucciones, pero puede ser un desafío encontrar la mejor instrucción para diferentes situaciones, especialmente para LLMs de caja negra en los que está prohibido el uso de retropropagación. En lugar de optimizar directamente la instrucción discreta, optimizamos un prompt suave de baja dimensionalidad aplicado a un LLM de código abierto para generar la instrucción para el LLM de caja negra. En cada iteración del método propuesto, que llamamos InstructZero, un prompt suave se convierte en una instrucción utilizando el LLM de código abierto, la cual se envía al LLM de caja negra para su evaluación en modo zero-shot, y el rendimiento se envía a la optimización bayesiana para producir nuevos prompts suaves que mejoren el rendimiento zero-shot. Evaluamos InstructZero en diferentes combinaciones de LLMs de código abierto y APIs, incluyendo Vicuna y ChatGPT. Nuestros resultados muestran que InstructZero supera a los métodos de auto-instrucción más avanzados (SOTA) en una variedad de tareas posteriores. Nuestro código y datos están disponibles públicamente en https://github.com/Lichang-Chen/InstructZero.
English
Large language models~(LLMs) are instruction followers, but it can be challenging to find the best instruction for different situations, especially for black-box LLMs on which backpropagation is forbidden. Instead of directly optimizing the discrete instruction, we optimize a low-dimensional soft prompt applied to an open-source LLM to generate the instruction for the black-box LLM. On each iteration of the proposed method, which we call InstructZero, a soft prompt is converted into an instruction using the open-source LLM, which is then submitted to the black-box LLM for zero-shot evaluation, and the performance is sent to Bayesian optimization to produce new soft prompts improving the zero-shot performance. We evaluate InstructZero on different combinations of open-source LLMs and APIs including Vicuna and ChatGPT. Our results show that InstructZero outperforms SOTA auto-instruction methods across a variety of downstream tasks. Our code and data are publicly available at https://github.com/Lichang-Chen/InstructZero.
PDF50December 15, 2024