WildIFEval : Suivi d'instructions en contexte réel
WildIFEval: Instruction Following in the Wild
March 9, 2025
Auteurs: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
Résumé
Les modèles de langage récents (LLMs) ont démontré un succès remarquable dans le suivi des instructions utilisateur, mais la gestion d'instructions comportant de multiples contraintes reste un défi majeur. Dans ce travail, nous présentons WildIFEval - un jeu de données à grande échelle contenant 12 000 instructions réelles d'utilisateurs avec des conditions diverses et multi-contraintes. Contrairement aux jeux de données précédents, notre collection couvre un large spectre lexical et thématique de contraintes, dans des prompts utilisateur naturels. Nous catégorisons ces contraintes en huit classes de haut niveau pour capturer leur distribution et leur dynamique dans des scénarios réels. En exploitant WildIFEval, nous menons des expériences approfondies pour évaluer les capacités de suivi d'instructions des principaux LLMs. Nos résultats révèlent que tous les modèles évalués subissent une dégradation des performances avec l'augmentation du nombre de contraintes. Ainsi, nous montrons que tous les modèles ont une marge d'amélioration importante sur de telles tâches. De plus, nous observons que le type spécifique de contrainte joue un rôle critique dans la performance des modèles. Nous publions notre jeu de données pour encourager des recherches supplémentaires sur le suivi d'instructions dans des conditions complexes et réalistes.
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.Summary
AI-Generated Summary