Avaliação de Seguimento de Instruções por meio de Manipulação de Verbalizador
Instruction-following Evaluation through Verbalizer Manipulation
July 20, 2023
Autores: Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin
cs.AI
Resumo
Embora modelos ajustados por instrução tenham demonstrado sucesso notável em várias tarefas de processamento de linguagem natural, avaliar com precisão sua capacidade de seguir instruções continua sendo um desafio. Os benchmarks existentes focam principalmente em instruções comuns que se alinham bem com o que o modelo aprendeu durante o treinamento. No entanto, a proficiência em responder a essas instruções não implica necessariamente uma forte capacidade de seguir instruções. Neste artigo, propomos um novo protocolo de avaliação de seguimento de instruções chamado manipulação de verbalizadores. Ele instrui o modelo a verbalizar o rótulo da tarefa com palavras que se alinham com os prioris do modelo em diferentes extensões, adotando verbalizadores desde altamente alinhados (por exemplo, emitindo "positivo" para sentimento positivo) até minimamente alinhados (por exemplo, emitindo "negativo" para sentimento positivo). A manipulação de verbalizadores pode ser integrada perfeitamente a qualquer benchmark de classificação para examinar a dependência do modelo em prioris e sua capacidade de substituí-los para seguir as instruções com precisão. Realizamos uma avaliação abrangente de quatro famílias principais de modelos em nove conjuntos de dados, empregando doze conjuntos de verbalizadores para cada um deles. Observamos que as habilidades de seguimento de instruções dos modelos, em diferentes famílias e escalas, são significativamente distinguidas por seu desempenho em verbalizadores menos naturais. Mesmo o modelo GPT-4 mais forte tem dificuldade em superar o acaso no verbalizador mais desafiador, enfatizando a necessidade de avanços contínuos para melhorar suas habilidades de seguimento de instruções.
English
While instruction-tuned models have shown remarkable success in various
natural language processing tasks, accurately evaluating their ability to
follow instructions remains challenging. Existing benchmarks primarily focus on
common instructions that align well with what the model learned during
training. However, proficiency in responding to these instructions does not
necessarily imply strong ability in instruction following. In this paper, we
propose a novel instruction-following evaluation protocol called verbalizer
manipulation. It instructs the model to verbalize the task label with words
aligning with model priors to different extents, adopting verbalizers from
highly aligned (e.g., outputting ``postive'' for positive sentiment), to
minimally aligned (e.g., outputting ``negative'' for positive sentiment).
Verbalizer manipulation can be seamlessly integrated with any classification
benchmark to examine the model's reliance on priors and its ability to override
them to accurately follow the instructions. We conduct a comprehensive
evaluation of four major model families across nine datasets, employing twelve
sets of verbalizers for each of them. We observe that the instruction-following
abilities of models, across different families and scales, are significantly
distinguished by their performance on less natural verbalizers. Even the
strongest GPT-4 model struggles to perform better than random guessing on the
most challenging verbalizer, emphasizing the need for continued advancements to
improve their instruction-following abilities.