ChatPaper.aiChatPaper

Inverse IFEval: Können LLMs hartnäckige Trainingskonventionen verlernen, um echten Anweisungen zu folgen?

Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

September 4, 2025
papers.authors: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) erzielen starke Leistungen bei vielfältigen Aufgaben, zeigen jedoch oft kognitive Trägheit und haben Schwierigkeiten, Anweisungen zu befolgen, die den standardisierten Mustern widersprechen, die während des überwachten Feinabstimmens (SFT) gelernt wurden. Um diese Einschränkung zu bewerten, schlagen wir Inverse IFEval vor, einen Benchmark, der die kontraintuitive Fähigkeit der Modelle misst – ihre Fähigkeit, trainingsinduzierte Verzerrungen zu überwinden und adversarischen Anweisungen zu folgen. Inverse IFEval führt acht Arten solcher Herausforderungen ein, darunter Fragenkorrektur, absichtliche Textfehler, Code ohne Kommentare und kontrafaktisches Beantworten. Mithilfe einer Human-in-the-Loop-Pipeline erstellen wir einen Datensatz von 1012 hochwertigen chinesischen und englischen Fragen aus 23 Domänen, die unter einem optimierten LLM-as-a-Judge-Framework bewertet werden. Experimente mit führenden existierenden LLMs demonstrieren die Notwendigkeit unseres vorgeschlagenen Inverse IFEval-Benchmarks. Unsere Ergebnisse betonen, dass zukünftige Alignment-Bemühungen nicht nur Flüssigkeit und faktische Korrektheit anstreben sollten, sondern auch die Anpassungsfähigkeit unter unkonventionellen Kontexten berücksichtigen müssen. Wir hoffen, dass Inverse IFEval sowohl als Diagnosewerkzeug als auch als Grundlage für die Entwicklung von Methoden dient, die kognitive Trägheit mindern, Overfitting auf enge Muster reduzieren und letztendlich die Zuverlässigkeit der Anweisungsbefolgung von LLMs in vielfältigen und unvorhersehbaren realen Szenarien verbessern.
English
Large Language Models (LLMs) achieve strong performance on diverse tasks but often exhibit cognitive inertia, struggling to follow instructions that conflict with the standardized patterns learned during supervised fine-tuning (SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that measures models Counter-intuitive Abilitytheir capacity to override training-induced biases and comply with adversarial instructions. Inverse IFEval introduces eight types of such challenges, including Question Correction, Intentional Textual Flaws, Code without Comments, and Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a dataset of 1012 high-quality Chinese and English questions across 23 domains, evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing leading LLMs demonstrate the necessity of our proposed Inverse IFEval benchmark. Our findings emphasize that future alignment efforts should not only pursue fluency and factual correctness but also account for adaptability under unconventional contexts. We hope that Inverse IFEval serves as both a diagnostic tool and a foundation for developing methods that mitigate cognitive inertia, reduce overfitting to narrow patterns, and ultimately enhance the instruction-following reliability of LLMs in diverse and unpredictable real-world scenarios.
PDF381September 5, 2025