Évaluation de la capacité à suivre des instructions par manipulation de verbaliseur
Instruction-following Evaluation through Verbalizer Manipulation
July 20, 2023
Auteurs: Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin
cs.AI
Résumé
Bien que les modèles ajustés par instruction aient démontré un succès remarquable dans diverses tâches de traitement du langage naturel, évaluer avec précision leur capacité à suivre les instructions reste un défi. Les benchmarks existants se concentrent principalement sur des instructions courantes qui s'alignent bien avec ce que le modèle a appris pendant l'entraînement. Cependant, la maîtrise dans la réponse à ces instructions n'implique pas nécessairement une forte capacité à suivre les instructions. Dans cet article, nous proposons un nouveau protocole d'évaluation de la capacité à suivre les instructions appelé manipulation de verbaliseur. Il demande au modèle de verbaliser l'étiquette de la tâche avec des mots s'alignant à différents degrés avec les a priori du modèle, en adoptant des verbaliseurs allant de fortement alignés (par exemple, produire « positif » pour un sentiment positif) à minimalement alignés (par exemple, produire « négatif » pour un sentiment positif). La manipulation de verbaliseur peut être intégrée de manière transparente à n'importe quel benchmark de classification pour examiner la dépendance du modèle aux a priori et sa capacité à les outrepasser pour suivre les instructions avec précision. Nous menons une évaluation complète de quatre grandes familles de modèles sur neuf ensembles de données, en utilisant douze ensembles de verbaliseurs pour chacun d'eux. Nous observons que les capacités à suivre les instructions des modèles, à travers différentes familles et échelles, sont significativement distinguées par leurs performances sur des verbaliseurs moins naturels. Même le modèle GPT-4, le plus performant, peine à faire mieux qu'une prédiction aléatoire sur le verbaliseur le plus difficile, soulignant la nécessité de poursuivre les avancées pour améliorer leurs capacités à suivre les instructions.
English
While instruction-tuned models have shown remarkable success in various
natural language processing tasks, accurately evaluating their ability to
follow instructions remains challenging. Existing benchmarks primarily focus on
common instructions that align well with what the model learned during
training. However, proficiency in responding to these instructions does not
necessarily imply strong ability in instruction following. In this paper, we
propose a novel instruction-following evaluation protocol called verbalizer
manipulation. It instructs the model to verbalize the task label with words
aligning with model priors to different extents, adopting verbalizers from
highly aligned (e.g., outputting ``postive'' for positive sentiment), to
minimally aligned (e.g., outputting ``negative'' for positive sentiment).
Verbalizer manipulation can be seamlessly integrated with any classification
benchmark to examine the model's reliance on priors and its ability to override
them to accurately follow the instructions. We conduct a comprehensive
evaluation of four major model families across nine datasets, employing twelve
sets of verbalizers for each of them. We observe that the instruction-following
abilities of models, across different families and scales, are significantly
distinguished by their performance on less natural verbalizers. Even the
strongest GPT-4 model struggles to perform better than random guessing on the
most challenging verbalizer, emphasizing the need for continued advancements to
improve their instruction-following abilities.