ChatPaper.aiChatPaper

WildIFEval: Seguire le Istruzioni in Contesti Reali

WildIFEval: Instruction Following in the Wild

March 9, 2025
Autori: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI

Abstract

I recenti LLM hanno dimostrato un notevole successo nel seguire le istruzioni degli utenti, tuttavia gestire istruzioni con vincoli multipli rimane una sfida significativa. In questo lavoro, introduciamo WildIFEval - un dataset su larga scala di 12K istruzioni reali degli utenti con condizioni diverse e multi-vincolo. A differenza dei dataset precedenti, la nostra raccolta copre un ampio spettro lessicale e tematico di vincoli, presenti in prompt naturali degli utenti. Classifichiamo questi vincoli in otto categorie di alto livello per catturarne la distribuzione e la dinamica in scenari reali. Utilizzando WildIFEval, conduciamo esperimenti estesi per valutare le capacità di seguire le istruzioni dei principali LLM. I nostri risultati rivelano che tutti i modelli valutati subiscono un degrado delle prestazioni con l'aumentare del numero di vincoli. Pertanto, dimostriamo che tutti i modelli hanno un ampio margine di miglioramento su tali compiti. Inoltre, osserviamo che il tipo specifico di vincolo gioca un ruolo critico nelle prestazioni del modello. Rilasciamo il nostro dataset per promuovere ulteriori ricerche sul seguire le istruzioni in condizioni complesse e realistiche.
English
Recent LLMs have shown remarkable success in following user instructions, yet handling instructions with multiple constraints remains a significant challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K real user instructions with diverse, multi-constraint conditions. Unlike prior datasets, our collection spans a broad lexical and topical spectrum of constraints, in natural user prompts. We categorize these constraints into eight high-level classes to capture their distribution and dynamics in real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments to benchmark the instruction-following capabilities of leading LLMs. Our findings reveal that all evaluated models experience performance degradation with an increasing number of constraints. Thus, we show that all models have a large room for improvement on such tasks. Moreover, we observe that the specific type of constraint plays a critical role in model performance. We release our dataset to promote further research on instruction-following under complex, realistic conditions.
PDF134March 13, 2025