WildIFEval: Seguire le Istruzioni in Contesti Reali
WildIFEval: Instruction Following in the Wild
March 9, 2025
Autori: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
Abstract
I recenti LLM hanno dimostrato un notevole successo nel seguire le istruzioni degli utenti, tuttavia gestire istruzioni con vincoli multipli rimane una sfida significativa. In questo lavoro, introduciamo WildIFEval - un dataset su larga scala di 12K istruzioni reali degli utenti con condizioni diverse e multi-vincolo. A differenza dei dataset precedenti, la nostra raccolta copre un ampio spettro lessicale e tematico di vincoli, presenti in prompt naturali degli utenti. Classifichiamo questi vincoli in otto categorie di alto livello per catturarne la distribuzione e la dinamica in scenari reali. Utilizzando WildIFEval, conduciamo esperimenti estesi per valutare le capacità di seguire le istruzioni dei principali LLM. I nostri risultati rivelano che tutti i modelli valutati subiscono un degrado delle prestazioni con l'aumentare del numero di vincoli. Pertanto, dimostriamo che tutti i modelli hanno un ampio margine di miglioramento su tali compiti. Inoltre, osserviamo che il tipo specifico di vincolo gioca un ruolo critico nelle prestazioni del modello. Rilasciamo il nostro dataset per promuovere ulteriori ricerche sul seguire le istruzioni in condizioni complesse e realistiche.
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.