WildIFEval: Seguimiento de Instrucciones en Entornos Naturales
WildIFEval: Instruction Following in the Wild
March 9, 2025
Autores: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
Resumen
Los LLM recientes han demostrado un éxito notable en seguir instrucciones de usuarios, sin embargo, manejar instrucciones con múltiples restricciones sigue siendo un desafío significativo. En este trabajo, presentamos WildIFEval: un conjunto de datos a gran escala de 12K instrucciones reales de usuarios con condiciones diversas y de múltiples restricciones. A diferencia de conjuntos de datos anteriores, nuestra colección abarca un amplio espectro léxico y temático de restricciones en indicaciones naturales de usuarios. Clasificamos estas restricciones en ocho categorías de alto nivel para capturar su distribución y dinámica en escenarios del mundo real. Utilizando WildIFEval, realizamos experimentos exhaustivos para evaluar las capacidades de seguimiento de instrucciones de los principales LLM. Nuestros hallazgos revelan que todos los modelos evaluados experimentan una degradación en el rendimiento con un número creciente de restricciones. Así, demostramos que todos los modelos tienen un amplio margen de mejora en tales tareas. Además, observamos que el tipo específico de restricción juega un papel crítico en el rendimiento del modelo. Publicamos nuestro conjunto de datos para promover más investigación sobre el seguimiento de instrucciones en condiciones complejas y realistas.
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.Summary
AI-Generated Summary