ChatPaper.aiChatPaper

Bewertung der Anweisungsbefolgung durch Verbalisermanipulation

Instruction-following Evaluation through Verbalizer Manipulation

July 20, 2023
Autoren: Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin
cs.AI

Zusammenfassung

Während instruktionsfeinabgestimmte Modelle bemerkenswerte Erfolge bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung gezeigt haben, bleibt die genaue Bewertung ihrer Fähigkeit, Anweisungen zu befolgen, eine Herausforderung. Bestehende Benchmarks konzentrieren sich hauptsächlich auf gängige Anweisungen, die gut mit dem übereinstimmen, was das Modell während des Trainings gelernt hat. Allerdings impliziert die Kompetenz bei der Beantwortung dieser Anweisungen nicht zwangsläufig eine starke Fähigkeit zur Anweisungsbefolgung. In diesem Artikel schlagen wir ein neuartiges Bewertungsprotokoll zur Anweisungsbefolgung vor, das als Verbalisermanipulation bezeichnet wird. Es weist das Modell an, die Aufgabenbezeichnung mit Wörtern zu verbalisieren, die in unterschiedlichem Ausmaß mit den Modellpräferenzen übereinstimmen, wobei Verbalisierer von stark übereinstimmend (z. B. die Ausgabe von „positiv“ für positive Stimmung) bis minimal übereinstimmend (z. B. die Ausgabe von „negativ“ für positive Stimmung) verwendet werden. Die Verbalisermanipulation kann nahtlos in jeden Klassifikationsbenchmark integriert werden, um die Abhängigkeit des Modells von Präferenzen und seine Fähigkeit, diese zu überschreiben, um Anweisungen genau zu befolgen, zu untersuchen. Wir führen eine umfassende Bewertung von vier großen Modellfamilien über neun Datensätze hinweg durch, wobei wir zwölf Sätze von Verbalisierern für jede von ihnen verwenden. Wir beobachten, dass die Anweisungsbefolgungsfähigkeiten von Modellen, über verschiedene Familien und Skalen hinweg, signifikant durch ihre Leistung bei weniger natürlichen Verbalisierern unterschieden werden. Selbst das stärkste GPT-4-Modell hat Schwierigkeiten, bei der anspruchsvollsten Verbalisierung besser als zufälliges Raten abzuschneiden, was die Notwendigkeit kontinuierlicher Fortschritte zur Verbesserung ihrer Anweisungsbefolgungsfähigkeiten unterstreicht.
English
While instruction-tuned models have shown remarkable success in various natural language processing tasks, accurately evaluating their ability to follow instructions remains challenging. Existing benchmarks primarily focus on common instructions that align well with what the model learned during training. However, proficiency in responding to these instructions does not necessarily imply strong ability in instruction following. In this paper, we propose a novel instruction-following evaluation protocol called verbalizer manipulation. It instructs the model to verbalize the task label with words aligning with model priors to different extents, adopting verbalizers from highly aligned (e.g., outputting ``postive'' for positive sentiment), to minimally aligned (e.g., outputting ``negative'' for positive sentiment). Verbalizer manipulation can be seamlessly integrated with any classification benchmark to examine the model's reliance on priors and its ability to override them to accurately follow the instructions. We conduct a comprehensive evaluation of four major model families across nine datasets, employing twelve sets of verbalizers for each of them. We observe that the instruction-following abilities of models, across different families and scales, are significantly distinguished by their performance on less natural verbalizers. Even the strongest GPT-4 model struggles to perform better than random guessing on the most challenging verbalizer, emphasizing the need for continued advancements to improve their instruction-following abilities.
PDF40December 15, 2024