A Lacuna das Instruções Atômicas: Modelos de Linguagem Ajustados por Instrução Têm Dificuldade com Diretivas Simples e Autocontidas
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
October 20, 2025
Autores: Henry Lim, Kwan Hui Lim
cs.AI
Resumo
Modelos de linguagem grandes ajustados por instrução (IT-LLMs) exibem um forte raciocínio zero-shot, mas sua capacidade de executar instruções simples e autossuficientes permanece pouco explorada, apesar de ser fundamental para o seguimento de instruções complexas. Avaliamos 20 IT-LLMs em benchmarks modificados do MMLU e MMLU-Pro, variando sistematicamente o formato dos rótulos das opções (alfabético, numérico, romano) enquanto mantemos seu significado idêntico sob quatro paradigmas, a saber: (1) Com instruções explícitas, mudanças nos rótulos causam grandes variações de desempenho (por exemplo, -30,45% para rótulos romanos vs. numéricos), revelando um viés de formato de instrução. (2) Sem instruções, o desempenho cai ainda mais (até -10,84%) e a sensibilidade aos rótulos se intensifica, destacando o papel da orientação explícita. (3) Quando o conteúdo das opções é removido, os modelos falham em superar baselines de escolha aleatória, exceto com rótulos numéricos, sugerindo uma adesão fraca a diretivas atômicas. (4) Exemplos de três tentativas não geram ganhos significativos em robustez ou fidelidade, e análises de geração mostram erros persistentes nos rótulos, especialmente para formatos não numéricos. Em diferentes tamanhos de modelos, LLMs maiores alcançam maior precisão, mas permanecem inconsistentes na adesão às instruções. Esses resultados expõem as insuficiências dos paradigmas atuais de ajuste por instrução e destacam a necessidade de métodos de avaliação e estratégias de treinamento que visem explicitamente o seguimento de instruções atômicas.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot
reasoning, yet their ability to execute simple, self-contained instructions
remains underexplored, despite this being foundational to complex
instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro
benchmarks, by systematically varying the format of option labels (alphabetic,
numeric, Roman) while keeping their meaning identical under four paradigms,
namely: (1) With explicit instructions, label changes cause large performance
shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format
bias. (2) Without instructions, performance drops further (up to -10.84\%) and
label sensitivity intensifies, underscoring the role of explicit guidance. (3)
When option contents are removed, models fail random-choice baselines except
with numeric labels, suggesting weak adherence to atomic directives. (4)
Three-shot exemplars yield no significant gains in robustness or fidelity, and
generation analyses show persistent label errors, especially for non-numeric
formats. Across model sizes, larger LLMs achieve higher accuracy but remain
inconsistent in instruction adherence. These results expose the insufficiencies
of current instruction-tuning paradigms and highlight the need for evaluation
methods and training strategies that explicitly target atomic
instruction-following.