ChatPaper.aiChatPaper

Inverse IFEval: Os LLMs Podem Desaprender Convenções Persistentes de Treinamento para Seguir Instruções Reais?

Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

September 4, 2025
Autores: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) alcançam um desempenho robusto em diversas tarefas, mas frequentemente exibem inércia cognitiva, lutando para seguir instruções que conflitam com os padrões padronizados aprendidos durante o ajuste fino supervisionado (SFT). Para avaliar essa limitação, propomos o Inverse IFEval, um benchmark que mede a Capacidade Contraintuitiva dos modelos — sua capacidade de superar vieses induzidos pelo treinamento e cumprir instruções adversariais. O Inverse IFEval introduz oito tipos de desafios, incluindo Correção de Perguntas, Falhas Textuais Intencionais, Código sem Comentários e Respostas Contrafactuais. Utilizando um pipeline com intervenção humana, construímos um conjunto de dados de 1012 perguntas de alta qualidade em chinês e inglês, abrangendo 23 domínios, avaliadas sob um framework otimizado de LLM-as-a-Judge. Experimentos com os principais LLMs existentes demonstram a necessidade do nosso benchmark proposto, o Inverse IFEval. Nossas descobertas enfatizam que futuros esforços de alinhamento não devem apenas buscar fluência e correção factual, mas também considerar a adaptabilidade em contextos não convencionais. Esperamos que o Inverse IFEval sirva tanto como uma ferramenta de diagnóstico quanto como uma base para o desenvolvimento de métodos que mitiguem a inércia cognitiva, reduzam o sobreajuste a padrões estreitos e, finalmente, aprimorem a confiabilidade dos LLMs em seguir instruções em cenários reais diversos e imprevisíveis.
English
Large Language Models (LLMs) achieve strong performance on diverse tasks but often exhibit cognitive inertia, struggling to follow instructions that conflict with the standardized patterns learned during supervised fine-tuning (SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that measures models Counter-intuitive Abilitytheir capacity to override training-induced biases and comply with adversarial instructions. Inverse IFEval introduces eight types of such challenges, including Question Correction, Intentional Textual Flaws, Code without Comments, and Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a dataset of 1012 high-quality Chinese and English questions across 23 domains, evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing leading LLMs demonstrate the necessity of our proposed Inverse IFEval benchmark. Our findings emphasize that future alignment efforts should not only pursue fluency and factual correctness but also account for adaptability under unconventional contexts. We hope that Inverse IFEval serves as both a diagnostic tool and a foundation for developing methods that mitigate cognitive inertia, reduce overfitting to narrow patterns, and ultimately enhance the instruction-following reliability of LLMs in diverse and unpredictable real-world scenarios.
PDF552September 5, 2025