Разрыв в атомарных инструкциях: языковые модели, настроенные на выполнение инструкций, испытывают трудности с простыми, самодостаточными директивами
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
October 20, 2025
Авторы: Henry Lim, Kwan Hui Lim
cs.AI
Аннотация
Крупные языковые модели, настроенные на выполнение инструкций (IT-LLMs), демонстрируют мощное нулевое обучение, однако их способность выполнять простые, самодостаточные инструкции остается недостаточно изученной, несмотря на то, что это является основой для выполнения сложных задач. Мы оцениваем 20 IT-LLMs на модифицированных бенчмарках MMLU и MMLU-Pro, систематически изменяя формат меток вариантов (буквенный, числовой, римский) при сохранении их смысла в рамках четырех парадигм: (1) При наличии явных инструкций изменения меток вызывают значительные сдвиги в производительности (например, -30,45% для римских меток по сравнению с числовыми), что выявляет предвзятость к формату инструкций. (2) Без инструкций производительность снижается еще больше (до -10,84%), а чувствительность к меткам усиливается, подчеркивая роль явного руководства. (3) При удалении содержимого вариантов модели не справляются с базовыми уровнями случайного выбора, за исключением числовых меток, что указывает на слабое следование атомарным директивам. (4) Трехшаговые примеры не дают значительного улучшения устойчивости или точности, а анализ генерации показывает устойчивые ошибки в метках, особенно для нечисловых форматов. Независимо от размера моделей, более крупные LLM достигают более высокой точности, но остаются непоследовательными в следовании инструкциям. Эти результаты выявляют недостатки текущих парадигм настройки на выполнение инструкций и подчеркивают необходимость методов оценки и стратегий обучения, которые явно нацелены на атомарное следование инструкциям.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot
reasoning, yet their ability to execute simple, self-contained instructions
remains underexplored, despite this being foundational to complex
instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro
benchmarks, by systematically varying the format of option labels (alphabetic,
numeric, Roman) while keeping their meaning identical under four paradigms,
namely: (1) With explicit instructions, label changes cause large performance
shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format
bias. (2) Without instructions, performance drops further (up to -10.84\%) and
label sensitivity intensifies, underscoring the role of explicit guidance. (3)
When option contents are removed, models fail random-choice baselines except
with numeric labels, suggesting weak adherence to atomic directives. (4)
Three-shot exemplars yield no significant gains in robustness or fidelity, and
generation analyses show persistent label errors, especially for non-numeric
formats. Across model sizes, larger LLMs achieve higher accuracy but remain
inconsistent in instruction adherence. These results expose the insufficiencies
of current instruction-tuning paradigms and highlight the need for evaluation
methods and training strategies that explicitly target atomic
instruction-following.