ChatPaper.aiChatPaper

Inverse IFEval: Kunnen LLMs Hardnekkige Trainingsconventies Afleren om Echte Instructies te Volgen?

Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

September 4, 2025
Auteurs: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) behalen sterke prestaties op diverse taken, maar vertonen vaak cognitieve inertie, waarbij ze moeite hebben om instructies op te volgen die in strijd zijn met de gestandaardiseerde patronen die zijn aangeleerd tijdens supervised fine-tuning (SFT). Om deze beperking te evalueren, stellen we Inverse IFEval voor, een benchmark die het Contra-intuïtieve Vermogen van modellen meet – hun vermogen om door training geïnduceerde vooroordelen te overwinnen en te voldoen aan adversariële instructies. Inverse IFEval introduceert acht soorten van dergelijke uitdagingen, waaronder Vraagcorrectie, Opzettelijke Tekstuele Fouten, Code zonder Commentaar en Contrafeitelijk Beantwoorden. Met behulp van een human-in-the-loop pipeline construeren we een dataset van 1012 hoogwaardige Chinese en Engelse vragen over 23 domeinen, geëvalueerd onder een geoptimaliseerd LLM-as-a-Judge raamwerk. Experimenten op bestaande toonaangevende LLMs demonstreren de noodzaak van onze voorgestelde Inverse IFEval benchmark. Onze bevindingen benadrukken dat toekomstige alignementinspanningen niet alleen moeten streven naar vloeiendheid en feitelijke correctheid, maar ook rekening moeten houden met aanpassingsvermogen onder onconventionele contexten. We hopen dat Inverse IFEval zowel als een diagnostisch hulpmiddel als een basis dient voor het ontwikkelen van methoden die cognitieve inertie verminderen, overfitting aan smalle patronen tegengaan, en uiteindelijk de betrouwbaarheid van instructievolgend gedrag van LLMs in diverse en onvoorspelbare real-world scenario's verbeteren.
English
Large Language Models (LLMs) achieve strong performance on diverse tasks but often exhibit cognitive inertia, struggling to follow instructions that conflict with the standardized patterns learned during supervised fine-tuning (SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that measures models Counter-intuitive Abilitytheir capacity to override training-induced biases and comply with adversarial instructions. Inverse IFEval introduces eight types of such challenges, including Question Correction, Intentional Textual Flaws, Code without Comments, and Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a dataset of 1012 high-quality Chinese and English questions across 23 domains, evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing leading LLMs demonstrate the necessity of our proposed Inverse IFEval benchmark. Our findings emphasize that future alignment efforts should not only pursue fluency and factual correctness but also account for adaptability under unconventional contexts. We hope that Inverse IFEval serves as both a diagnostic tool and a foundation for developing methods that mitigate cognitive inertia, reduce overfitting to narrow patterns, and ultimately enhance the instruction-following reliability of LLMs in diverse and unpredictable real-world scenarios.
PDF572September 5, 2025