Inverse IFEval: Способны ли языковые модели отказаться от устойчивых обучающих шаблонов для выполнения реальных инструкций?
Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?
September 4, 2025
Авторы: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют высокую производительность в решении разнообразных задач, но часто проявляют когнитивную инерцию, испытывая трудности при выполнении инструкций, которые противоречат стандартизированным шаблонам, усвоенным в процессе контролируемого тонкого обучения (SFT). Для оценки этого ограничения мы предлагаем Inverse IFEval — эталонный тест, который измеряет способность моделей к контр-интуитивному поведению — их способность преодолевать предубеждения, вызванные обучением, и следовать враждебным инструкциям. Inverse IFEval включает восемь типов таких задач, таких как Исправление вопроса, Намеренные текстовые ошибки, Код без комментариев и Контрфактические ответы. Используя подход с участием человека, мы создали набор данных из 1012 высококачественных вопросов на китайском и английском языках, охватывающих 23 области, которые оцениваются в рамках оптимизированной системы LLM-as-a-Judge. Эксперименты с существующими ведущими LLM подтверждают необходимость предложенного нами эталонного теста Inverse IFEval. Наши результаты подчеркивают, что будущие усилия по согласованию моделей должны быть направлены не только на достижение беглости и фактической точности, но и на учет адаптивности в нестандартных контекстах. Мы надеемся, что Inverse IFEval послужит как диагностическим инструментом, так и основой для разработки методов, которые смягчат когнитивную инерцию, уменьшат переобучение узким шаблонам и в конечном итоге повысят надежность выполнения инструкций LLM в разнообразных и непредсказуемых реальных сценариях.
English
Large Language Models (LLMs) achieve strong performance on diverse tasks but
often exhibit cognitive inertia, struggling to follow instructions that
conflict with the standardized patterns learned during supervised fine-tuning
(SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that
measures models Counter-intuitive Abilitytheir capacity to override
training-induced biases and comply with adversarial instructions. Inverse
IFEval introduces eight types of such challenges, including Question
Correction, Intentional Textual Flaws, Code without Comments, and
Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a
dataset of 1012 high-quality Chinese and English questions across 23 domains,
evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing
leading LLMs demonstrate the necessity of our proposed Inverse IFEval
benchmark. Our findings emphasize that future alignment efforts should not only
pursue fluency and factual correctness but also account for adaptability under
unconventional contexts. We hope that Inverse IFEval serves as both a
diagnostic tool and a foundation for developing methods that mitigate cognitive
inertia, reduce overfitting to narrow patterns, and ultimately enhance the
instruction-following reliability of LLMs in diverse and unpredictable
real-world scenarios.