ChatPaper.aiChatPaper

WildIFEval: Instructievolging in de Praktijk

WildIFEval: Instruction Following in the Wild

March 9, 2025
Auteurs: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI

Samenvatting

Recente LLM's hebben opmerkelijke successen geboekt in het opvolgen van gebruikersinstructies, maar het omgaan met instructies met meerdere beperkingen blijft een aanzienlijke uitdaging. In dit werk introduceren we WildIFEval - een grootschalige dataset van 12K echte gebruikersinstructies met diverse, multi-beperkende voorwaarden. In tegenstelling tot eerdere datasets beslaat onze collectie een breed lexicaal en thematisch spectrum van beperkingen, in natuurlijke gebruikersprompts. We categoriseren deze beperkingen in acht hoogwaardige klassen om hun verdeling en dynamiek in realistische scenario's vast te leggen. Door gebruik te maken van WildIFEval, voeren we uitgebreide experimenten uit om de instructie-opvolgingscapaciteiten van toonaangevende LLM's te benchmarken. Onze bevindingen tonen aan dat alle geëvalueerde modellen prestatieverlies ervaren bij een toenemend aantal beperkingen. Hiermee laten we zien dat alle modellen nog aanzienlijke verbeteringsmogelijkheden hebben voor dergelijke taken. Bovendien observeren we dat het specifieke type beperking een cruciale rol speelt in de modelprestaties. We publiceren onze dataset om verder onderzoek te bevorderen naar instructie-opvolging onder complexe, realistische omstandigheden.
English
Recent LLMs have shown remarkable success in following user instructions, yet handling instructions with multiple constraints remains a significant challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K real user instructions with diverse, multi-constraint conditions. Unlike prior datasets, our collection spans a broad lexical and topical spectrum of constraints, in natural user prompts. We categorize these constraints into eight high-level classes to capture their distribution and dynamics in real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments to benchmark the instruction-following capabilities of leading LLMs. Our findings reveal that all evaluated models experience performance degradation with an increasing number of constraints. Thus, we show that all models have a large room for improvement on such tasks. Moreover, we observe that the specific type of constraint plays a critical role in model performance. We release our dataset to promote further research on instruction-following under complex, realistic conditions.

Summary

AI-Generated Summary

PDF134March 13, 2025