Оценка выполнения инструкций через манипуляцию вербализатором
Instruction-following Evaluation through Verbalizer Manipulation
July 20, 2023
Авторы: Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin
cs.AI
Аннотация
Хотя модели, настроенные на выполнение инструкций, продемонстрировали впечатляющие успехи в различных задачах обработки естественного языка, точная оценка их способности следовать инструкциям остается сложной задачей. Существующие бенчмарки в основном сосредоточены на распространенных инструкциях, которые хорошо согласуются с тем, что модель изучила в процессе обучения. Однако умение реагировать на такие инструкции не обязательно свидетельствует о сильной способности следовать инструкциям. В данной статье мы предлагаем новый протокол оценки способности следовать инструкциям, называемый манипуляцией вербализаторами. Он предписывает модели вербализовать метку задачи с использованием слов, которые в разной степени соответствуют априорным ожиданиям модели, начиная от вербализаторов с высокой степенью согласованности (например, вывод «положительный» для положительной эмоциональной окраски) до минимально согласованных (например, вывод «отрицательный» для положительной эмоциональной окраски). Манипуляция вербализаторами может быть легко интегрирована в любой классификационный бенчмарк для изучения зависимости модели от априорных ожиданий и ее способности преодолевать их для точного выполнения инструкций. Мы проводим всестороннюю оценку четырех основных семейств моделей на девяти наборах данных, используя двенадцать наборов вербализаторов для каждого из них. Мы наблюдаем, что способности моделей следовать инструкциям, независимо от их семейства и масштаба, значительно различаются в зависимости от их производительности на менее естественных вербализаторах. Даже самая мощная модель GPT-4 с трудом справляется с наиболее сложным вербализатором, показывая результаты, не превышающие случайного угадывания, что подчеркивает необходимость дальнейшего совершенствования их способности следовать инструкциям.
English
While instruction-tuned models have shown remarkable success in various
natural language processing tasks, accurately evaluating their ability to
follow instructions remains challenging. Existing benchmarks primarily focus on
common instructions that align well with what the model learned during
training. However, proficiency in responding to these instructions does not
necessarily imply strong ability in instruction following. In this paper, we
propose a novel instruction-following evaluation protocol called verbalizer
manipulation. It instructs the model to verbalize the task label with words
aligning with model priors to different extents, adopting verbalizers from
highly aligned (e.g., outputting ``postive'' for positive sentiment), to
minimally aligned (e.g., outputting ``negative'' for positive sentiment).
Verbalizer manipulation can be seamlessly integrated with any classification
benchmark to examine the model's reliance on priors and its ability to override
them to accurately follow the instructions. We conduct a comprehensive
evaluation of four major model families across nine datasets, employing twelve
sets of verbalizers for each of them. We observe that the instruction-following
abilities of models, across different families and scales, are significantly
distinguished by their performance on less natural verbalizers. Even the
strongest GPT-4 model struggles to perform better than random guessing on the
most challenging verbalizer, emphasizing the need for continued advancements to
improve their instruction-following abilities.