ChatPaper.aiChatPaper

IHEval: Оценка языковых моделей на следование иерархии инструкций

IHEval: Evaluating Language Models on Following the Instruction Hierarchy

February 12, 2025
Авторы: Zhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang
cs.AI

Аннотация

Иерархия инструкций, которая устанавливает порядок приоритетов от системных сообщений к пользовательским, истории диалогов и выводам инструментов, играет ключевую роль в обеспечении согласованного и безопасного поведения языковых моделей (ЯМ). Несмотря на её важность, этой теме уделяется недостаточно внимания, а также отсутствуют комплексные эталоны для оценки способности моделей следовать иерархии инструкций. Мы устраняем этот пробел, представляя IHEval — новый эталон, включающий 3,538 примеров по девяти задачам, охватывающим случаи, когда инструкции разных приоритетов либо согласуются, либо конфликтуют. Наша оценка популярных ЯМ выявила их трудности в распознавании приоритетов инструкций. Все протестированные модели демонстрируют резкое снижение производительности при столкновении с конфликтующими инструкциями по сравнению с их исходной способностью следовать инструкциям. Более того, наиболее конкурентоспособная модель с открытым исходным кодом достигает лишь 48% точности в разрешении таких конфликтов. Наши результаты подчеркивают необходимость целенаправленной оптимизации в будущем развитии ЯМ.
English
The instruction hierarchy, which establishes a priority order from system messages to user messages, conversation history, and tool outputs, is essential for ensuring consistent and safe behavior in language models (LMs). Despite its importance, this topic receives limited attention, and there is a lack of comprehensive benchmarks for evaluating models' ability to follow the instruction hierarchy. We bridge this gap by introducing IHEval, a novel benchmark comprising 3,538 examples across nine tasks, covering cases where instructions in different priorities either align or conflict. Our evaluation of popular LMs highlights their struggle to recognize instruction priorities. All evaluated models experience a sharp performance decline when facing conflicting instructions, compared to their original instruction-following performance. Moreover, the most competitive open-source model only achieves 48% accuracy in resolving such conflicts. Our results underscore the need for targeted optimization in the future development of LMs.

Summary

AI-Generated Summary

PDF192February 18, 2025