WildIFEval: Seguimiento de Instrucciones en Entornos Naturales

Resumen

Los LLM recientes han demostrado un éxito notable en seguir instrucciones de usuarios, sin embargo, manejar instrucciones con múltiples restricciones sigue siendo un desafío significativo. En este trabajo, presentamos WildIFEval: un conjunto de datos a gran escala de 12K instrucciones reales de usuarios con condiciones diversas y de múltiples restricciones. A diferencia de conjuntos de datos anteriores, nuestra colección abarca un amplio espectro léxico y temático de restricciones en indicaciones naturales de usuarios. Clasificamos estas restricciones en ocho categorías de alto nivel para capturar su distribución y dinámica en escenarios del mundo real. Utilizando WildIFEval, realizamos experimentos exhaustivos para evaluar las capacidades de seguimiento de instrucciones de los principales LLM. Nuestros hallazgos revelan que todos los modelos evaluados experimentan una degradación en el rendimiento con un número creciente de restricciones. Así, demostramos que todos los modelos tienen un amplio margen de mejora en tales tareas. Además, observamos que el tipo específico de restricción juega un papel crítico en el rendimiento del modelo. Publicamos nuestro conjunto de datos para promover más investigación sobre el seguimiento de instrucciones en condiciones complejas y realistas.

English

Recent LLMs have shown remarkable success in following user instructions, yet handling instructions with multiple constraints remains a significant challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K real user instructions with diverse, multi-constraint conditions. Unlike prior datasets, our collection spans a broad lexical and topical spectrum of constraints, in natural user prompts. We categorize these constraints into eight high-level classes to capture their distribution and dynamics in real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments to benchmark the instruction-following capabilities of leading LLMs. Our findings reveal that all evaluated models experience performance degradation with an increasing number of constraints. Thus, we show that all models have a large room for improvement on such tasks. Moreover, we observe that the specific type of constraint plays a critical role in model performance. We release our dataset to promote further research on instruction-following under complex, realistic conditions.

WildIFEval: Seguimiento de Instrucciones en Entornos Naturales

WildIFEval: Instruction Following in the Wild

Resumen

Support