ChatPaper.aiChatPaper

InstructZero: Efficiënte Instructieoptimalisatie voor Black-Box Grote Taalmodellen

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models

June 5, 2023
Auteurs: Lichang Chen, Jiuhai Chen, Tom Goldstein, Heng Huang, Tianyi Zhou
cs.AI

Samenvatting

Grote taalmodellen (LLMs) zijn instructievolgers, maar het kan uitdagend zijn om de beste instructie te vinden voor verschillende situaties, vooral voor black-box LLMs waarop backpropagatie verboden is. In plaats van de discrete instructie direct te optimaliseren, optimaliseren we een laagdimensionale soft prompt die wordt toegepast op een open-source LLM om de instructie voor het black-box LLM te genereren. Bij elke iteratie van de voorgestelde methode, die we InstructZero noemen, wordt een soft prompt omgezet in een instructie met behulp van het open-source LLM, die vervolgens wordt ingediend bij het black-box LLM voor zero-shot evaluatie, en de prestaties worden doorgegeven aan Bayesiaanse optimalisatie om nieuwe soft prompts te produceren die de zero-shot prestaties verbeteren. We evalueren InstructZero op verschillende combinaties van open-source LLMs en API's, waaronder Vicuna en ChatGPT. Onze resultaten laten zien dat InstructZero state-of-the-art auto-instructiemethoden overtreft op een verscheidenheid aan downstream taken. Onze code en gegevens zijn openbaar beschikbaar op https://github.com/Lichang-Chen/InstructZero.
English
Large language models~(LLMs) are instruction followers, but it can be challenging to find the best instruction for different situations, especially for black-box LLMs on which backpropagation is forbidden. Instead of directly optimizing the discrete instruction, we optimize a low-dimensional soft prompt applied to an open-source LLM to generate the instruction for the black-box LLM. On each iteration of the proposed method, which we call InstructZero, a soft prompt is converted into an instruction using the open-source LLM, which is then submitted to the black-box LLM for zero-shot evaluation, and the performance is sent to Bayesian optimization to produce new soft prompts improving the zero-shot performance. We evaluate InstructZero on different combinations of open-source LLMs and APIs including Vicuna and ChatGPT. Our results show that InstructZero outperforms SOTA auto-instruction methods across a variety of downstream tasks. Our code and data are publicly available at https://github.com/Lichang-Chen/InstructZero.
PDF50February 8, 2026