WildIFEval: 야생 환경에서의 명령어 수행 평가
WildIFEval: Instruction Following in the Wild
March 9, 2025
저자: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
초록
최근의 대형 언어 모델(LLM)은 사용자 지시를 따르는 데 있어 놀라운 성과를 보여주고 있지만, 다중 제약 조건을 포함한 지시를 처리하는 것은 여전히 중요한 과제로 남아 있습니다. 본 연구에서는 12,000개의 실제 사용자 지시로 구성된 대규모 데이터셋인 WildIFEval을 소개합니다. 이전 데이터셋과 달리, 우리의 데이터셋은 자연스러운 사용자 프롬프트에서 다양한 어휘 및 주제 범위의 제약 조건을 포괄합니다. 이러한 제약 조건을 8개의 상위 범주로 분류하여 실제 시나리오에서의 분포와 동적 특성을 파악했습니다. WildIFEval을 활용하여 주요 LLM들의 지시 수행 능력을 벤치마킹하는 광범위한 실험을 수행했습니다. 연구 결과, 평가된 모든 모델은 제약 조건의 수가 증가함에 따라 성능 저하를 경험하는 것으로 나타났습니다. 이를 통해 모든 모델이 이러한 작업에서 개선의 여지가 크다는 것을 확인했습니다. 또한, 특정 유형의 제약 조건이 모델 성능에 중요한 역할을 한다는 것을 관찰했습니다. 우리는 복잡하고 현실적인 조건 하에서의 지시 수행 연구를 촉진하기 위해 이 데이터셋을 공개합니다.
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.Summary
AI-Generated Summary