Inverse IFEval : Les modèles de langage peuvent-ils désapprendre les conventions d'entraînement persistantes pour suivre de véritables instructions ?
Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?
September 4, 2025
papers.authors: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) obtiennent des performances solides sur des tâches variées, mais manifestent souvent une inertie cognitive, peinant à suivre des instructions qui entrent en conflit avec les schémas standardisés appris lors du réglage supervisé (SFT). Pour évaluer cette limitation, nous proposons Inverse IFEval, un benchmark qui mesure la capacité contre-intuitive des modèles à surmonter les biais induits par l'entraînement et à se conformer à des instructions adverses. Inverse IFEval introduit huit types de défis, notamment la correction de questions, les défauts textuels intentionnels, le code sans commentaires et les réponses contrefactuelles. En utilisant un pipeline avec intervention humaine, nous construisons un ensemble de données de 1012 questions de haute qualité en chinois et en anglais, couvrant 23 domaines, évaluées dans le cadre d'un système optimisé LLM-as-a-Judge. Les expériences sur les LLM leaders actuels démontrent la nécessité de notre benchmark Inverse IFEval. Nos résultats soulignent que les futurs efforts d'alignement ne devraient pas seulement viser la fluidité et l'exactitude factuelle, mais aussi prendre en compte l'adaptabilité dans des contextes non conventionnels. Nous espérons qu'Inverse IFEval servira à la fois d'outil de diagnostic et de base pour développer des méthodes atténuant l'inertie cognitive, réduisant le surajustement à des schémas étroits et améliorant finalement la fiabilité des LLM à suivre des instructions dans des scénarios réels divers et imprévisibles.
English
Large Language Models (LLMs) achieve strong performance on diverse tasks but
often exhibit cognitive inertia, struggling to follow instructions that
conflict with the standardized patterns learned during supervised fine-tuning
(SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that
measures models Counter-intuitive Abilitytheir capacity to override
training-induced biases and comply with adversarial instructions. Inverse
IFEval introduces eight types of such challenges, including Question
Correction, Intentional Textual Flaws, Code without Comments, and
Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a
dataset of 1012 high-quality Chinese and English questions across 23 domains,
evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing
leading LLMs demonstrate the necessity of our proposed Inverse IFEval
benchmark. Our findings emphasize that future alignment efforts should not only
pursue fluency and factual correctness but also account for adaptability under
unconventional contexts. We hope that Inverse IFEval serves as both a
diagnostic tool and a foundation for developing methods that mitigate cognitive
inertia, reduce overfitting to narrow patterns, and ultimately enhance the
instruction-following reliability of LLMs in diverse and unpredictable
real-world scenarios.