L'écart des instructions atomiques : les LLM ajustés par instruction peinent à exécuter des directives simples et autonomes

papers.abstract

Les grands modèles de langage ajustés par instruction (IT-LLMs) démontrent un raisonnement zero-shot robuste, mais leur capacité à exécuter des instructions simples et autonomes reste peu explorée, bien que cela soit fondamental pour le suivi d'instructions complexes. Nous évaluons 20 IT-LLMs sur des versions modifiées des benchmarks MMLU et MMLU-Pro, en faisant varier systématiquement le format des étiquettes d'options (alphabétique, numérique, romain) tout en conservant leur signification identique sous quatre paradigmes : (1) Avec des instructions explicites, les changements d'étiquettes provoquent des variations importantes de performance (par exemple, -30,45 % pour les étiquettes romaines vs. numériques), révélant un biais lié au format des instructions. (2) Sans instructions, la performance chute davantage (jusqu'à -10,84 %) et la sensibilité aux étiquettes s'intensifie, soulignant le rôle des directives explicites. (3) Lorsque le contenu des options est supprimé, les modèles échouent à surpasser les bases de choix aléatoires, sauf avec des étiquettes numériques, suggérant une faible adhésion aux directives atomiques. (4) L'utilisation d'exemples en three-shot n'apporte pas de gains significatifs en robustesse ou fidélité, et les analyses de génération montrent des erreurs persistantes sur les étiquettes, en particulier pour les formats non numériques. Quelle que soit la taille des modèles, les LLMs plus grands atteignent une précision plus élevée mais restent incohérents dans le suivi des instructions. Ces résultats mettent en lumière les insuffisances des paradigmes actuels d'ajustement par instruction et soulignent la nécessité de méthodes d'évaluation et de stratégies d'entraînement ciblant explicitement le suivi d'instructions atomiques.

English

Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot reasoning, yet their ability to execute simple, self-contained instructions remains underexplored, despite this being foundational to complex instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro benchmarks, by systematically varying the format of option labels (alphabetic, numeric, Roman) while keeping their meaning identical under four paradigms, namely: (1) With explicit instructions, label changes cause large performance shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format bias. (2) Without instructions, performance drops further (up to -10.84\%) and label sensitivity intensifies, underscoring the role of explicit guidance. (3) When option contents are removed, models fail random-choice baselines except with numeric labels, suggesting weak adherence to atomic directives. (4) Three-shot exemplars yield no significant gains in robustness or fidelity, and generation analyses show persistent label errors, especially for non-numeric formats. Across model sizes, larger LLMs achieve higher accuracy but remain inconsistent in instruction adherence. These results expose the insufficiencies of current instruction-tuning paradigms and highlight the need for evaluation methods and training strategies that explicitly target atomic instruction-following.

L'écart des instructions atomiques : les LLM ajustés par instruction peinent à exécuter des directives simples et autonomes

The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives

papers.abstract

Support