Il Divario nelle Istruzioni Atomiche: i Modelli Linguistici Ottimizzati per le Istruzioni Faticano con Direttive Semplici e Autocontenute
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
October 20, 2025
Autori: Henry Lim, Kwan Hui Lim
cs.AI
Abstract
I modelli linguistici di grandi dimensioni ottimizzati per le istruzioni (IT-LLMs) dimostrano un forte ragionamento zero-shot, ma la loro capacità di eseguire istruzioni semplici e autonome rimane poco esplorata, nonostante ciò sia fondamentale per il seguire istruzioni complesse. Valutiamo 20 IT-LLMs su benchmark modificati di MMLU e MMLU-Pro, variando sistematicamente il formato delle etichette delle opzioni (alfabetico, numerico, romano) mantenendo invariato il loro significato sotto quattro paradigmi, ovvero: (1) Con istruzioni esplicite, i cambiamenti delle etichette causano ampie variazioni di prestazione (ad esempio, -30,45% per le etichette romane rispetto a quelle numeriche), rivelando un bias legato al formato delle istruzioni. (2) Senza istruzioni, le prestazioni diminuiscono ulteriormente (fino a -10,84%) e la sensibilità alle etichette si intensifica, sottolineando il ruolo della guida esplicita. (3) Quando i contenuti delle opzioni vengono rimossi, i modelli non superano i benchmark di scelta casuale tranne che con etichette numeriche, suggerendo una debole aderenza a direttive atomiche. (4) Esempi three-shot non producono guadagni significativi in robustezza o fedeltà, e le analisi di generazione mostrano errori persistenti nelle etichette, specialmente per formati non numerici. Tra le dimensioni dei modelli, gli LLM più grandi raggiungono una maggiore accuratezza ma rimangono incoerenti nell'aderenza alle istruzioni. Questi risultati evidenziano le insufficienze degli attuali paradigmi di ottimizzazione per le istruzioni e sottolineano la necessità di metodi di valutazione e strategie di formazione che mirino esplicitamente al seguire istruzioni atomiche.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot
reasoning, yet their ability to execute simple, self-contained instructions
remains underexplored, despite this being foundational to complex
instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro
benchmarks, by systematically varying the format of option labels (alphabetic,
numeric, Roman) while keeping their meaning identical under four paradigms,
namely: (1) With explicit instructions, label changes cause large performance
shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format
bias. (2) Without instructions, performance drops further (up to -10.84\%) and
label sensitivity intensifies, underscoring the role of explicit guidance. (3)
When option contents are removed, models fail random-choice baselines except
with numeric labels, suggesting weak adherence to atomic directives. (4)
Three-shot exemplars yield no significant gains in robustness or fidelity, and
generation analyses show persistent label errors, especially for non-numeric
formats. Across model sizes, larger LLMs achieve higher accuracy but remain
inconsistent in instruction adherence. These results expose the insufficiencies
of current instruction-tuning paradigms and highlight the need for evaluation
methods and training strategies that explicitly target atomic
instruction-following.