WildIFEval: Следование инструкциям в реальных условиях
WildIFEval: Instruction Following in the Wild
March 9, 2025
Авторы: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
Аннотация
Современные крупные языковые модели (LLM) демонстрируют впечатляющие успехи в выполнении пользовательских инструкций, однако обработка инструкций с множественными ограничениями остается серьезной проблемой. В данной работе мы представляем WildIFEval — масштабный набор данных, содержащий 12 тысяч реальных пользовательских инструкций с разнообразными условиями, включающими несколько ограничений. В отличие от предыдущих наборов данных, наша коллекция охватывает широкий лексический и тематический спектр ограничений, встречающихся в естественных пользовательских запросах. Мы классифицируем эти ограничения на восемь высокоуровневых категорий, чтобы отразить их распределение и динамику в реальных сценариях. Используя WildIFEval, мы проводим обширные эксперименты для оценки способностей ведущих LLM следовать инструкциям. Наши результаты показывают, что все протестированные модели демонстрируют снижение производительности с увеличением числа ограничений. Таким образом, мы показываем, что все модели имеют значительный потенциал для улучшения в таких задачах. Кроме того, мы отмечаем, что конкретный тип ограничения играет ключевую роль в производительности модели. Мы публикуем наш набор данных, чтобы способствовать дальнейшим исследованиям в области выполнения инструкций в сложных, реалистичных условиях.
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.Summary
AI-Generated Summary