WildIFEval: Seguimento de Instruções em Ambientes Diversos

Resumo

Modelos de linguagem de grande escala (LLMs) recentes têm demonstrado sucesso notável em seguir instruções de usuários, mas lidar com instruções que possuem múltiplas restrições continua sendo um desafio significativo. Neste trabalho, apresentamos o WildIFEval - um conjunto de dados em larga escala com 12 mil instruções reais de usuários, contendo condições diversas e com múltiplas restrições. Diferente de conjuntos de dados anteriores, nossa coleção abrange um amplo espectro lexical e temático de restrições, presentes em prompts naturais de usuários. Categorizamos essas restrições em oito classes de alto nível para capturar sua distribuição e dinâmica em cenários do mundo real. Utilizando o WildIFEval, realizamos experimentos extensivos para avaliar as capacidades de seguir instruções dos principais LLMs. Nossos resultados revelam que todos os modelos avaliados sofrem degradação de desempenho com o aumento do número de restrições. Assim, mostramos que todos os modelos têm um grande espaço para melhoria nessas tarefas. Além disso, observamos que o tipo específico de restrição desempenha um papel crítico no desempenho dos modelos. Disponibilizamos nosso conjunto de dados para promover pesquisas adicionais sobre a capacidade de seguir instruções em condições complexas e realistas.

English

Recent LLMs have shown remarkable success in following user instructions, yet handling instructions with multiple constraints remains a significant challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K real user instructions with diverse, multi-constraint conditions. Unlike prior datasets, our collection spans a broad lexical and topical spectrum of constraints, in natural user prompts. We categorize these constraints into eight high-level classes to capture their distribution and dynamics in real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments to benchmark the instruction-following capabilities of leading LLMs. Our findings reveal that all evaluated models experience performance degradation with an increasing number of constraints. Thus, we show that all models have a large room for improvement on such tasks. Moreover, we observe that the specific type of constraint plays a critical role in model performance. We release our dataset to promote further research on instruction-following under complex, realistic conditions.

WildIFEval: Seguimento de Instruções em Ambientes Diversos

WildIFEval: Instruction Following in the Wild

Resumo

Support