ChatPaper.aiChatPaper

IFEval Inverso: ¿Pueden los LLMs desaprender convenciones persistentes de entrenamiento para seguir instrucciones reales?

Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

September 4, 2025
Autores: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento sólido en diversas tareas, pero a menudo exhiben inercia cognitiva, luchando por seguir instrucciones que entran en conflicto con los patrones estandarizados aprendidos durante el ajuste fino supervisado (SFT). Para evaluar esta limitación, proponemos Inverse IFEval, un punto de referencia que mide la Capacidad Contraintuitiva de los modelos: su habilidad para anular los sesgos inducidos por el entrenamiento y cumplir con instrucciones adversarias. Inverse IFEval introduce ocho tipos de desafíos de este tipo, incluyendo Corrección de Preguntas, Errores Textuales Intencionales, Código sin Comentarios y Respuestas Contrafácticas. Utilizando un proceso con intervención humana, construimos un conjunto de datos de 1012 preguntas de alta calidad en chino e inglés, abarcando 23 dominios, evaluadas bajo un marco optimizado de LLM-como-Juez. Los experimentos con los principales LLMs existentes demuestran la necesidad de nuestro punto de referencia propuesto, Inverse IFEval. Nuestros hallazgos enfatizan que los futuros esfuerzos de alineación no solo deben perseguir la fluidez y la corrección factual, sino también considerar la adaptabilidad en contextos no convencionales. Esperamos que Inverse IFEval sirva tanto como una herramienta de diagnóstico como una base para desarrollar métodos que mitiguen la inercia cognitiva, reduzcan el sobreajuste a patrones estrechos y, en última instancia, mejoren la confiabilidad de los LLMs en el seguimiento de instrucciones en escenarios reales diversos e impredecibles.
English
Large Language Models (LLMs) achieve strong performance on diverse tasks but often exhibit cognitive inertia, struggling to follow instructions that conflict with the standardized patterns learned during supervised fine-tuning (SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that measures models Counter-intuitive Abilitytheir capacity to override training-induced biases and comply with adversarial instructions. Inverse IFEval introduces eight types of such challenges, including Question Correction, Intentional Textual Flaws, Code without Comments, and Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a dataset of 1012 high-quality Chinese and English questions across 23 domains, evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing leading LLMs demonstrate the necessity of our proposed Inverse IFEval benchmark. Our findings emphasize that future alignment efforts should not only pursue fluency and factual correctness but also account for adaptability under unconventional contexts. We hope that Inverse IFEval serves as both a diagnostic tool and a foundation for developing methods that mitigate cognitive inertia, reduce overfitting to narrow patterns, and ultimately enhance the instruction-following reliability of LLMs in diverse and unpredictable real-world scenarios.
PDF381September 5, 2025