言語化操作による指示追従評価
Instruction-following Evaluation through Verbalizer Manipulation
July 20, 2023
著者: Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin
cs.AI
要旨
命令チューニングされたモデルは、様々な自然言語処理タスクで顕著な成功を収めているが、その命令追従能力を正確に評価することは依然として課題である。既存のベンチマークは主に、モデルが学習中に学んだ内容とよく一致する一般的な命令に焦点を当てている。しかし、これらの命令に対する熟練度は、必ずしも命令追従能力の強さを意味するものではない。本論文では、verbalizer manipulationと呼ばれる新しい命令追従評価プロトコルを提案する。これは、モデルにタスクラベルを、モデルの事前知識と異なる程度に一致する言葉で表現するよう指示するもので、高度に一致するverbalizer(例えば、肯定的な感情に対して「positive」を出力する)から、最小限に一致するverbalizer(例えば、肯定的な感情に対して「negative」を出力する)までを採用する。Verbalizer manipulationは、任意の分類ベンチマークにシームレスに統合でき、モデルが事前知識に依存する度合いや、それを上書きして正確に命令を追従する能力を検証することができる。我々は、4つの主要なモデルファミリーを9つのデータセットで包括的に評価し、それぞれに対して12セットのverbalizerを採用した。その結果、異なるファミリーや規模のモデル間で、命令追従能力は、より自然でないverbalizerに対するパフォーマンスによって大きく区別されることが観察された。最も強力なGPT-4モデルでさえ、最も挑戦的なverbalizerではランダムな推測を上回る性能を発揮することが難しく、命令追従能力を向上させるための継続的な進歩の必要性が強調された。
English
While instruction-tuned models have shown remarkable success in various
natural language processing tasks, accurately evaluating their ability to
follow instructions remains challenging. Existing benchmarks primarily focus on
common instructions that align well with what the model learned during
training. However, proficiency in responding to these instructions does not
necessarily imply strong ability in instruction following. In this paper, we
propose a novel instruction-following evaluation protocol called verbalizer
manipulation. It instructs the model to verbalize the task label with words
aligning with model priors to different extents, adopting verbalizers from
highly aligned (e.g., outputting ``postive'' for positive sentiment), to
minimally aligned (e.g., outputting ``negative'' for positive sentiment).
Verbalizer manipulation can be seamlessly integrated with any classification
benchmark to examine the model's reliance on priors and its ability to override
them to accurately follow the instructions. We conduct a comprehensive
evaluation of four major model families across nine datasets, employing twelve
sets of verbalizers for each of them. We observe that the instruction-following
abilities of models, across different families and scales, are significantly
distinguished by their performance on less natural verbalizers. Even the
strongest GPT-4 model struggles to perform better than random guessing on the
most challenging verbalizer, emphasizing the need for continued advancements to
improve their instruction-following abilities.