La Brecha de Instrucción Atómica: Los LLMs Ajustados por Instrucciones Luchan con Directivas Simples y Autocontenidas
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
October 20, 2025
Autores: Henry Lim, Kwan Hui Lim
cs.AI
Resumen
Los modelos de lenguaje grande ajustados por instrucciones (IT-LLMs, por sus siglas en inglés) exhiben un razonamiento sólido en tareas de cero disparos, pero su capacidad para ejecutar instrucciones simples y autónomas sigue siendo poco explorada, a pesar de que esto es fundamental para el seguimiento de instrucciones complejas. Evaluamos 20 IT-LLMs en versiones modificadas de los benchmarks MMLU y MMLU-Pro, variando sistemáticamente el formato de las etiquetas de opción (alfabético, numérico, romano) mientras se mantenía su significado idéntico bajo cuatro paradigmas: (1) Con instrucciones explícitas, los cambios en las etiquetas causan grandes variaciones en el rendimiento (por ejemplo, -30.45% para romano vs. numérico), revelando un sesgo hacia el formato de las instrucciones. (2) Sin instrucciones, el rendimiento disminuye aún más (hasta -10.84%) y la sensibilidad a las etiquetas se intensifica, destacando el papel de la guía explícita. (3) Cuando se eliminan los contenidos de las opciones, los modelos no superan los baselines de elección aleatoria, excepto con etiquetas numéricas, lo que sugiere una adherencia débil a las directivas atómicas. (4) Los ejemplos de tres disparos no producen mejoras significativas en robustez o fidelidad, y los análisis de generación muestran errores persistentes en las etiquetas, especialmente en formatos no numéricos. A través de diferentes tamaños de modelos, los LLMs más grandes logran una mayor precisión pero siguen siendo inconsistentes en el seguimiento de instrucciones. Estos resultados exponen las insuficiencias de los paradigmas actuales de ajuste por instrucciones y resaltan la necesidad de métodos de evaluación y estrategias de entrenamiento que aborden explícitamente el seguimiento de instrucciones atómicas.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot
reasoning, yet their ability to execute simple, self-contained instructions
remains underexplored, despite this being foundational to complex
instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro
benchmarks, by systematically varying the format of option labels (alphabetic,
numeric, Roman) while keeping their meaning identical under four paradigms,
namely: (1) With explicit instructions, label changes cause large performance
shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format
bias. (2) Without instructions, performance drops further (up to -10.84\%) and
label sensitivity intensifies, underscoring the role of explicit guidance. (3)
When option contents are removed, models fail random-choice baselines except
with numeric labels, suggesting weak adherence to atomic directives. (4)
Three-shot exemplars yield no significant gains in robustness or fidelity, and
generation analyses show persistent label errors, especially for non-numeric
formats. Across model sizes, larger LLMs achieve higher accuracy but remain
inconsistent in instruction adherence. These results expose the insufficiencies
of current instruction-tuning paradigms and highlight the need for evaluation
methods and training strategies that explicitly target atomic
instruction-following.