Valutazione del rispetto delle istruzioni mediante manipolazione del verbalizzatore
Instruction-following Evaluation through Verbalizer Manipulation
July 20, 2023
Autori: Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin
cs.AI
Abstract
Sebbene i modelli ottimizzati per le istruzioni abbiano dimostrato un notevole successo in vari compiti di elaborazione del linguaggio naturale, valutare con precisione la loro capacità di seguire le istruzioni rimane una sfida. I benchmark esistenti si concentrano principalmente su istruzioni comuni che si allineano bene con ciò che il modello ha appreso durante l'addestramento. Tuttavia, la competenza nel rispondere a queste istruzioni non implica necessariamente una forte capacità di seguire le istruzioni. In questo articolo, proponiamo un nuovo protocollo di valutazione del seguire le istruzioni chiamato manipolazione del verbalizzatore. Esso istruisce il modello a verbalizzare l'etichetta del compito con parole che si allineano ai priori del modello in misura diversa, adottando verbalizzatori da altamente allineati (ad esempio, emettere "positivo" per un sentimento positivo), a minimamente allineati (ad esempio, emettere "negativo" per un sentimento positivo). La manipolazione del verbalizzatore può essere integrata senza soluzione di continuità con qualsiasi benchmark di classificazione per esaminare la dipendenza del modello dai priori e la sua capacità di sovrascriverli per seguire accuratamente le istruzioni. Effettuiamo una valutazione completa di quattro principali famiglie di modelli su nove dataset, impiegando dodici set di verbalizzatori per ciascuno di essi. Osserviamo che le capacità di seguire le istruzioni dei modelli, tra diverse famiglie e scale, sono significativamente distinte dalle loro prestazioni su verbalizzatori meno naturali. Anche il modello GPT-4 più potente fatica a performare meglio di un'ipotesi casuale sul verbalizzatore più impegnativo, sottolineando la necessità di continui progressi per migliorare le loro capacità di seguire le istruzioni.
English
While instruction-tuned models have shown remarkable success in various
natural language processing tasks, accurately evaluating their ability to
follow instructions remains challenging. Existing benchmarks primarily focus on
common instructions that align well with what the model learned during
training. However, proficiency in responding to these instructions does not
necessarily imply strong ability in instruction following. In this paper, we
propose a novel instruction-following evaluation protocol called verbalizer
manipulation. It instructs the model to verbalize the task label with words
aligning with model priors to different extents, adopting verbalizers from
highly aligned (e.g., outputting ``postive'' for positive sentiment), to
minimally aligned (e.g., outputting ``negative'' for positive sentiment).
Verbalizer manipulation can be seamlessly integrated with any classification
benchmark to examine the model's reliance on priors and its ability to override
them to accurately follow the instructions. We conduct a comprehensive
evaluation of four major model families across nine datasets, employing twelve
sets of verbalizers for each of them. We observe that the instruction-following
abilities of models, across different families and scales, are significantly
distinguished by their performance on less natural verbalizers. Even the
strongest GPT-4 model struggles to perform better than random guessing on the
most challenging verbalizer, emphasizing the need for continued advancements to
improve their instruction-following abilities.