WildIFEval: Seguimento de Instruções em Ambientes Diversos
WildIFEval: Instruction Following in the Wild
March 9, 2025
Autores: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) recentes têm demonstrado sucesso notável em seguir instruções de usuários, mas lidar com instruções que possuem múltiplas restrições continua sendo um desafio significativo. Neste trabalho, apresentamos o WildIFEval - um conjunto de dados em larga escala com 12 mil instruções reais de usuários, contendo condições diversas e com múltiplas restrições. Diferente de conjuntos de dados anteriores, nossa coleção abrange um amplo espectro lexical e temático de restrições, presentes em prompts naturais de usuários. Categorizamos essas restrições em oito classes de alto nível para capturar sua distribuição e dinâmica em cenários do mundo real. Utilizando o WildIFEval, realizamos experimentos extensivos para avaliar as capacidades de seguir instruções dos principais LLMs. Nossos resultados revelam que todos os modelos avaliados sofrem degradação de desempenho com o aumento do número de restrições. Assim, mostramos que todos os modelos têm um grande espaço para melhoria nessas tarefas. Além disso, observamos que o tipo específico de restrição desempenha um papel crítico no desempenho dos modelos. Disponibilizamos nosso conjunto de dados para promover pesquisas adicionais sobre a capacidade de seguir instruções em condições complexas e realistas.
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.Summary
AI-Generated Summary