Бенчмарк SIFo: Исследование способности к последовательному следованию инструкциям крупных языковых моделей

Аннотация

Следование множеству инструкций является важным навыком для крупных языковых моделей (LLM). Оценка этого навыка сопряжена с существенными вызовами: (i) ограниченная связность между множеством инструкций, (ii) позиционный эффект, при котором порядок инструкций влияет на производительность модели, и (iii) отсутствие объективно проверяемых задач. Для решения этих проблем мы представляем бенчмарк, разработанный для оценки способностей моделей следовать множеству инструкций через последовательные задачи следования инструкциям (SIFo). В SIFo успешное выполнение нескольких инструкций можно проверить, изучив только конечную инструкцию. Наш бенчмарк оценивает следование инструкциям с помощью четырех задач (модификация текста, вопросно-ответные задачи, математика и следование правилам безопасности), каждая из которых оценивает различные аспекты последовательного следования инструкциям. Наша оценка популярных LLM, как закрытых, так и открытых исходных кодов, показывает, что более новые и крупные модели значительно превосходят своих старых и меньших аналогов в задачах SIFo, подтверждая эффективность бенчмарка. Все модели испытывают затруднения с последовательным следованием инструкциям, указывая на важный недостаток устойчивости современных языковых моделей.

English

Following multiple instructions is a crucial ability for large language models (LLMs). Evaluating this ability comes with significant challenges: (i) limited coherence between multiple instructions, (ii) positional bias where the order of instructions affects model performance, and (iii) a lack of objectively verifiable tasks. To address these issues, we introduce a benchmark designed to evaluate models' abilities to follow multiple instructions through sequential instruction following (SIFo) tasks. In SIFo, the successful completion of multiple instructions is verifiable by examining only the final instruction. Our benchmark evaluates instruction following using four tasks (text modification, question answering, mathematics, and security rule following), each assessing different aspects of sequential instruction following. Our evaluation of popular LLMs, both closed-source and open-source, shows that more recent and larger models significantly outperform their older and smaller counterparts on the SIFo tasks, validating the benchmark's effectiveness. All models struggle with following sequences of instructions, hinting at an important lack of robustness of today's language models.

Бенчмарк SIFo: Исследование способности к последовательному следованию инструкциям крупных языковых моделей

The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models

Аннотация

Support