Die Lücke bei atomaren Anweisungen: Instruktionsoptimierte LLMs haben Schwierigkeiten mit einfachen, eigenständigen Direktiven
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
October 20, 2025
papers.authors: Henry Lim, Kwan Hui Lim
cs.AI
papers.abstract
Instruktionsoptimierte große Sprachmodelle (IT-LLMs) zeigen starke Zero-Shot-Fähigkeiten, doch ihre Fähigkeit, einfache, eigenständige Anweisungen auszuführen, bleibt weitgehend unerforscht, obwohl dies die Grundlage für komplexes Anweisungsbefolgen darstellt. Wir evaluieren 20 IT-LLMs anhand modifizierter MMLU- und MMLU-Pro-Benchmarks, indem wir systematisch das Format der Optionsbeschriftungen (alphabetisch, numerisch, römisch) variieren, während ihre Bedeutung unter vier Paradigmen identisch bleibt: (1) Bei expliziten Anweisungen führen Änderungen der Beschriftungen zu erheblichen Leistungsverschiebungen (z. B. -30,45 % für römisch vs. numerisch), was eine Anweisungsformat-Bias offenbart. (2) Ohne Anweisungen sinkt die Leistung weiter (bis zu -10,84 %) und die Empfindlichkeit gegenüber Beschriftungen verstärkt sich, was die Rolle expliziter Anleitung unterstreicht. (3) Wenn die Inhalte der Optionen entfernt werden, verfehlen die Modelle die Zufallswahl-Baselines, außer bei numerischen Beschriftungen, was auf eine schwache Befolgung atomarer Anweisungen hindeutet. (4) Drei-Shot-Beispiele bringen keine signifikanten Verbesserungen in Bezug auf Robustheit oder Treue, und Generierungsanalysen zeigen anhaltende Beschriftungsfehler, insbesondere bei nicht-numerischen Formaten. Über alle Modellgrößen hinweg erreichen größere LLMs eine höhere Genauigkeit, bleiben jedoch inkonsistent in der Anweisungsbefolgung. Diese Ergebnisse offenbaren die Unzulänglichkeiten aktueller Instruktionsoptimierungs-Paradigmen und unterstreichen die Notwendigkeit von Evaluierungsmethoden und Trainingsstrategien, die explizit atomares Anweisungsbefolgen adressieren.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot
reasoning, yet their ability to execute simple, self-contained instructions
remains underexplored, despite this being foundational to complex
instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro
benchmarks, by systematically varying the format of option labels (alphabetic,
numeric, Roman) while keeping their meaning identical under four paradigms,
namely: (1) With explicit instructions, label changes cause large performance
shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format
bias. (2) Without instructions, performance drops further (up to -10.84\%) and
label sensitivity intensifies, underscoring the role of explicit guidance. (3)
When option contents are removed, models fail random-choice baselines except
with numeric labels, suggesting weak adherence to atomic directives. (4)
Three-shot exemplars yield no significant gains in robustness or fidelity, and
generation analyses show persistent label errors, especially for non-numeric
formats. Across model sizes, larger LLMs achieve higher accuracy but remain
inconsistent in instruction adherence. These results expose the insufficiencies
of current instruction-tuning paradigms and highlight the need for evaluation
methods and training strategies that explicitly target atomic
instruction-following.