Inverse IFEval: I Modelli Linguistici Possono Disimparare Convenzioni di Addestramento Persistenti per Seguire Istruzioni Reali?

Abstract

I modelli linguistici di grandi dimensioni (LLM) ottengono prestazioni elevate su un'ampia gamma di compiti, ma spesso manifestano inerzia cognitiva, trovando difficoltà nel seguire istruzioni che confliggono con gli schemi standardizzati appresi durante l'addestramento supervisionato (SFT). Per valutare questa limitazione, proponiamo Inverse IFEval, un benchmark che misura la capacità controintuitiva dei modelli—la loro abilità di sovrascrivere i bias indotti dall'addestramento e conformarsi a istruzioni avversariali. Inverse IFEval introduce otto tipi di sfide, tra cui Correzione delle Domande, Errori Testuali Intenzionali, Codice senza Commenti e Risposte Controfattuali. Utilizzando una pipeline con un umano nel ciclo, abbiamo costruito un dataset di 1012 domande di alta qualità in cinese e inglese, distribuite su 23 domini, valutate attraverso un framework ottimizzato LLM-as-a-Judge. Gli esperimenti condotti sui principali LLM esistenti dimostrano la necessità del nostro benchmark Inverse IFEval. I risultati evidenziano che i futuri sforzi di allineamento non dovrebbero perseguire solo la fluidità e la correttezza fattuale, ma anche considerare l'adattabilità in contesti non convenzionali. Auspichiamo che Inverse IFEval serva sia come strumento diagnostico sia come base per sviluppare metodi che mitigano l'inerzia cognitiva, riducono l'overfitting su schemi ristretti e, in ultima analisi, migliorano l'affidabilità dei LLM nel seguire istruzioni in scenari reali diversificati e imprevedibili.

English

Large Language Models (LLMs) achieve strong performance on diverse tasks but often exhibit cognitive inertia, struggling to follow instructions that conflict with the standardized patterns learned during supervised fine-tuning (SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that measures models Counter-intuitive Abilitytheir capacity to override training-induced biases and comply with adversarial instructions. Inverse IFEval introduces eight types of such challenges, including Question Correction, Intentional Textual Flaws, Code without Comments, and Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a dataset of 1012 high-quality Chinese and English questions across 23 domains, evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing leading LLMs demonstrate the necessity of our proposed Inverse IFEval benchmark. Our findings emphasize that future alignment efforts should not only pursue fluency and factual correctness but also account for adaptability under unconventional contexts. We hope that Inverse IFEval serves as both a diagnostic tool and a foundation for developing methods that mitigate cognitive inertia, reduce overfitting to narrow patterns, and ultimately enhance the instruction-following reliability of LLMs in diverse and unpredictable real-world scenarios.

Inverse IFEval: I Modelli Linguistici Possono Disimparare Convenzioni di Addestramento Persistenti per Seguire Istruzioni Reali?

Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

Abstract

Support