La Brecha de Instrucción Atómica: Los LLMs Ajustados por Instrucciones Luchan con Directivas Simples y Autocontenidas

Resumen

Los modelos de lenguaje grande ajustados por instrucciones (IT-LLMs, por sus siglas en inglés) exhiben un razonamiento sólido en tareas de cero disparos, pero su capacidad para ejecutar instrucciones simples y autónomas sigue siendo poco explorada, a pesar de que esto es fundamental para el seguimiento de instrucciones complejas. Evaluamos 20 IT-LLMs en versiones modificadas de los benchmarks MMLU y MMLU-Pro, variando sistemáticamente el formato de las etiquetas de opción (alfabético, numérico, romano) mientras se mantenía su significado idéntico bajo cuatro paradigmas: (1) Con instrucciones explícitas, los cambios en las etiquetas causan grandes variaciones en el rendimiento (por ejemplo, -30.45% para romano vs. numérico), revelando un sesgo hacia el formato de las instrucciones. (2) Sin instrucciones, el rendimiento disminuye aún más (hasta -10.84%) y la sensibilidad a las etiquetas se intensifica, destacando el papel de la guía explícita. (3) Cuando se eliminan los contenidos de las opciones, los modelos no superan los baselines de elección aleatoria, excepto con etiquetas numéricas, lo que sugiere una adherencia débil a las directivas atómicas. (4) Los ejemplos de tres disparos no producen mejoras significativas en robustez o fidelidad, y los análisis de generación muestran errores persistentes en las etiquetas, especialmente en formatos no numéricos. A través de diferentes tamaños de modelos, los LLMs más grandes logran una mayor precisión pero siguen siendo inconsistentes en el seguimiento de instrucciones. Estos resultados exponen las insuficiencias de los paradigmas actuales de ajuste por instrucciones y resaltan la necesidad de métodos de evaluación y estrategias de entrenamiento que aborden explícitamente el seguimiento de instrucciones atómicas.

English

Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot reasoning, yet their ability to execute simple, self-contained instructions remains underexplored, despite this being foundational to complex instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro benchmarks, by systematically varying the format of option labels (alphabetic, numeric, Roman) while keeping their meaning identical under four paradigms, namely: (1) With explicit instructions, label changes cause large performance shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format bias. (2) Without instructions, performance drops further (up to -10.84\%) and label sensitivity intensifies, underscoring the role of explicit guidance. (3) When option contents are removed, models fail random-choice baselines except with numeric labels, suggesting weak adherence to atomic directives. (4) Three-shot exemplars yield no significant gains in robustness or fidelity, and generation analyses show persistent label errors, especially for non-numeric formats. Across model sizes, larger LLMs achieve higher accuracy but remain inconsistent in instruction adherence. These results expose the insufficiencies of current instruction-tuning paradigms and highlight the need for evaluation methods and training strategies that explicitly target atomic instruction-following.

La Brecha de Instrucción Atómica: Los LLMs Ajustados por Instrucciones Luchan con Directivas Simples y Autocontenidas

The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives

Resumen

Support