L'écart des instructions atomiques : les LLM ajustés par instruction peinent à exécuter des directives simples et autonomes
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
October 20, 2025
papers.authors: Henry Lim, Kwan Hui Lim
cs.AI
papers.abstract
Les grands modèles de langage ajustés par instruction (IT-LLMs) démontrent un raisonnement zero-shot robuste, mais leur capacité à exécuter des instructions simples et autonomes reste peu explorée, bien que cela soit fondamental pour le suivi d'instructions complexes. Nous évaluons 20 IT-LLMs sur des versions modifiées des benchmarks MMLU et MMLU-Pro, en faisant varier systématiquement le format des étiquettes d'options (alphabétique, numérique, romain) tout en conservant leur signification identique sous quatre paradigmes : (1) Avec des instructions explicites, les changements d'étiquettes provoquent des variations importantes de performance (par exemple, -30,45 % pour les étiquettes romaines vs. numériques), révélant un biais lié au format des instructions. (2) Sans instructions, la performance chute davantage (jusqu'à -10,84 %) et la sensibilité aux étiquettes s'intensifie, soulignant le rôle des directives explicites. (3) Lorsque le contenu des options est supprimé, les modèles échouent à surpasser les bases de choix aléatoires, sauf avec des étiquettes numériques, suggérant une faible adhésion aux directives atomiques. (4) L'utilisation d'exemples en three-shot n'apporte pas de gains significatifs en robustesse ou fidélité, et les analyses de génération montrent des erreurs persistantes sur les étiquettes, en particulier pour les formats non numériques. Quelle que soit la taille des modèles, les LLMs plus grands atteignent une précision plus élevée mais restent incohérents dans le suivi des instructions. Ces résultats mettent en lumière les insuffisances des paradigmes actuels d'ajustement par instruction et soulignent la nécessité de méthodes d'évaluation et de stratégies d'entraînement ciblant explicitement le suivi d'instructions atomiques.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot
reasoning, yet their ability to execute simple, self-contained instructions
remains underexplored, despite this being foundational to complex
instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro
benchmarks, by systematically varying the format of option labels (alphabetic,
numeric, Roman) while keeping their meaning identical under four paradigms,
namely: (1) With explicit instructions, label changes cause large performance
shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format
bias. (2) Without instructions, performance drops further (up to -10.84\%) and
label sensitivity intensifies, underscoring the role of explicit guidance. (3)
When option contents are removed, models fail random-choice baselines except
with numeric labels, suggesting weak adherence to atomic directives. (4)
Three-shot exemplars yield no significant gains in robustness or fidelity, and
generation analyses show persistent label errors, especially for non-numeric
formats. Across model sizes, larger LLMs achieve higher accuracy but remain
inconsistent in instruction adherence. These results expose the insufficiencies
of current instruction-tuning paradigms and highlight the need for evaluation
methods and training strategies that explicitly target atomic
instruction-following.