Evaluatie van instructievolging door manipulatie van verbalizers
Instruction-following Evaluation through Verbalizer Manipulation
July 20, 2023
Auteurs: Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin
cs.AI
Samenvatting
Hoewel instructie-afgestemde modellen opmerkelijke successen hebben geboekt in diverse natuurlijke taalverwerkingstaken, blijft het nauwkeurig evalueren van hun vermogen om instructies te volgen een uitdaging. Bestaande benchmarks richten zich voornamelijk op veelvoorkomende instructies die goed aansluiten bij wat het model tijdens de training heeft geleerd. Echter, vaardigheid in het reageren op deze instructies impliceert niet noodzakelijk een sterk vermogen tot instructievolgen. In dit artikel stellen we een nieuw evaluatieprotocol voor instructievolgen voor, genaamd verbalizer-manipulatie. Het instrueert het model om het taaklabel te verbaliseren met woorden die in verschillende mate aansluiten bij de prioriteiten van het model, waarbij verbalizers worden gebruikt die variëren van sterk aansluitend (bijvoorbeeld het uitvoeren van "positief" voor positieve sentiment) tot minimaal aansluitend (bijvoorbeeld het uitvoeren van "negatief" voor positieve sentiment). Verbalizer-manipulatie kan naadloos worden geïntegreerd met elke classificatiebenchmark om de afhankelijkheid van het model van prioriteiten en zijn vermogen om deze te overschrijven om nauwkeurig instructies te volgen, te onderzoeken. We voeren een uitgebreide evaluatie uit van vier belangrijke modelfamilies over negen datasets, waarbij we twaalf sets verbalizers voor elk van hen gebruiken. We observeren dat de instructievolgende vermogens van modellen, over verschillende families en schalen, significant worden onderscheiden door hun prestaties op minder natuurlijke verbalizers. Zelfs het sterkste GPT-4-model worstelt om beter te presteren dan willekeurig gissen op de meest uitdagende verbalizer, wat de noodzaak benadrukt van voortdurende vooruitgang om hun instructievolgende vermogens te verbeteren.
English
While instruction-tuned models have shown remarkable success in various
natural language processing tasks, accurately evaluating their ability to
follow instructions remains challenging. Existing benchmarks primarily focus on
common instructions that align well with what the model learned during
training. However, proficiency in responding to these instructions does not
necessarily imply strong ability in instruction following. In this paper, we
propose a novel instruction-following evaluation protocol called verbalizer
manipulation. It instructs the model to verbalize the task label with words
aligning with model priors to different extents, adopting verbalizers from
highly aligned (e.g., outputting ``postive'' for positive sentiment), to
minimally aligned (e.g., outputting ``negative'' for positive sentiment).
Verbalizer manipulation can be seamlessly integrated with any classification
benchmark to examine the model's reliance on priors and its ability to override
them to accurately follow the instructions. We conduct a comprehensive
evaluation of four major model families across nine datasets, employing twelve
sets of verbalizers for each of them. We observe that the instruction-following
abilities of models, across different families and scales, are significantly
distinguished by their performance on less natural verbalizers. Even the
strongest GPT-4 model struggles to perform better than random guessing on the
most challenging verbalizer, emphasizing the need for continued advancements to
improve their instruction-following abilities.