ChatPaper.aiChatPaper

IHEval : Évaluation des modèles linguistiques sur le respect de la hiérarchie des instructions

IHEval: Evaluating Language Models on Following the Instruction Hierarchy

February 12, 2025
Auteurs: Zhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang
cs.AI

Résumé

La hiérarchie des instructions, qui établit un ordre de priorité allant des messages système aux messages utilisateur, en passant par l'historique des conversations et les sorties d'outils, est essentielle pour garantir un comportement cohérent et sûr des modèles de langage (LMs). Malgré son importance, ce sujet reçoit une attention limitée, et il existe un manque de benchmarks complets pour évaluer la capacité des modèles à respecter cette hiérarchie. Nous comblons cette lacune en introduisant IHEval, un nouveau benchmark comprenant 3 538 exemples répartis sur neuf tâches, couvrant des cas où les instructions de différentes priorités s'alignent ou entrent en conflit. Notre évaluation des LMs populaires met en évidence leur difficulté à reconnaître les priorités des instructions. Tous les modèles évalués subissent une forte baisse de performance lorsqu'ils sont confrontés à des instructions conflictuelles, par rapport à leur performance initiale de suivi des instructions. De plus, le modèle open-source le plus compétitif n'atteint que 48 % de précision dans la résolution de tels conflits. Nos résultats soulignent la nécessité d'une optimisation ciblée dans le développement futur des LMs.
English
The instruction hierarchy, which establishes a priority order from system messages to user messages, conversation history, and tool outputs, is essential for ensuring consistent and safe behavior in language models (LMs). Despite its importance, this topic receives limited attention, and there is a lack of comprehensive benchmarks for evaluating models' ability to follow the instruction hierarchy. We bridge this gap by introducing IHEval, a novel benchmark comprising 3,538 examples across nine tasks, covering cases where instructions in different priorities either align or conflict. Our evaluation of popular LMs highlights their struggle to recognize instruction priorities. All evaluated models experience a sharp performance decline when facing conflicting instructions, compared to their original instruction-following performance. Moreover, the most competitive open-source model only achieves 48% accuracy in resolving such conflicts. Our results underscore the need for targeted optimization in the future development of LMs.

Summary

AI-Generated Summary

PDF192February 18, 2025