Het Atomair Instructie Gat: Instructie-afgestemde LLM’s worstelen met eenvoudige, zelfstandige richtlijnen
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
October 20, 2025
Auteurs: Henry Lim, Kwan Hui Lim
cs.AI
Samenvatting
Instructie-getrainde grote taalmodellen (IT-LLMs) vertonen sterk zero-shot redeneervermogen, maar hun vermogen om eenvoudige, zelfstandige instructies uit te voeren blijft onderbelicht, ondanks dat dit fundamenteel is voor het volgen van complexe instructies. We evalueren 20 IT-LLMs op aangepaste MMLU- en MMLU-Pro benchmarks door systematisch de vorm van optielabels (alfabetisch, numeriek, Romeins) te variëren terwijl hun betekenis identiek blijft onder vier paradigma’s, namelijk: (1) Met expliciete instructies veroorzaken labelwijzigingen grote prestatieverschuivingen (bijv. -30,45% voor Romeinse versus numerieke labels), wat een instructie-formaatbias blootlegt. (2) Zonder instructies daalt de prestatie verder (tot -10,84%) en neemt de gevoeligheid voor labels toe, wat de rol van expliciete begeleiding benadrukt. (3) Wanneer de inhoud van de opties wordt verwijderd, halen de modellen de random-choice basislijnen niet, behalve bij numerieke labels, wat wijst op zwakke naleving van atomische richtlijnen. (4) Three-shot voorbeelden leveren geen significante verbeteringen in robuustheid of trouw op, en generatieanalyses tonen aanhoudende labelfouten, vooral voor niet-numerieke formaten. Over verschillende modelgroottes heen behalen grotere LLMs een hogere nauwkeurigheid, maar blijven inconsistent in het volgen van instructies. Deze resultaten leggen de tekortkomingen van de huidige instructie-afstemmingsparadigma’s bloot en benadrukken de noodzaak van evaluatiemethoden en trainingsstrategieën die expliciet gericht zijn op het volgen van atomische instructies.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot
reasoning, yet their ability to execute simple, self-contained instructions
remains underexplored, despite this being foundational to complex
instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro
benchmarks, by systematically varying the format of option labels (alphabetic,
numeric, Roman) while keeping their meaning identical under four paradigms,
namely: (1) With explicit instructions, label changes cause large performance
shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format
bias. (2) Without instructions, performance drops further (up to -10.84\%) and
label sensitivity intensifies, underscoring the role of explicit guidance. (3)
When option contents are removed, models fail random-choice baselines except
with numeric labels, suggesting weak adherence to atomic directives. (4)
Three-shot exemplars yield no significant gains in robustness or fidelity, and
generation analyses show persistent label errors, especially for non-numeric
formats. Across model sizes, larger LLMs achieve higher accuracy but remain
inconsistent in instruction adherence. These results expose the insufficiencies
of current instruction-tuning paradigms and highlight the need for evaluation
methods and training strategies that explicitly target atomic
instruction-following.