WildIFEval:実世界における指示追従評価
WildIFEval: Instruction Following in the Wild
March 9, 2025
著者: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
要旨
最近の大規模言語モデル(LLM)は、ユーザーの指示に従う能力において顕著な成功を収めているが、複数の制約条件を伴う指示の処理は依然として重要な課題である。本研究では、WildIFEvalを紹介する。これは、多様で複数の制約条件を持つ12,000件の実ユーザー指示からなる大規模データセットである。従来のデータセットとは異なり、私たちのコレクションは、自然なユーザープロンプトにおける広範な語彙的およびトピック的な制約のスペクトルを網羅している。これらの制約を8つの高レベルなクラスに分類し、実世界のシナリオにおけるその分布と動態を捉える。WildIFEvalを活用し、主要なLLMの指示追従能力をベンチマークするための広範な実験を実施した。その結果、評価されたすべてのモデルにおいて、制約の数が増えるにつれて性能が低下することが明らかになった。したがって、すべてのモデルがこのようなタスクにおいて大幅な改善の余地があることを示した。さらに、特定の制約の種類がモデルの性能に重要な役割を果たすことが観察された。私たちは、複雑で現実的な条件下での指示追従に関するさらなる研究を促進するために、このデータセットを公開する。
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.Summary
AI-Generated Summary