A Lacuna das Instruções Atômicas: Modelos de Linguagem Ajustados por Instrução Têm Dificuldade com Diretivas Simples e Autocontidas

Resumo

Modelos de linguagem grandes ajustados por instrução (IT-LLMs) exibem um forte raciocínio zero-shot, mas sua capacidade de executar instruções simples e autossuficientes permanece pouco explorada, apesar de ser fundamental para o seguimento de instruções complexas. Avaliamos 20 IT-LLMs em benchmarks modificados do MMLU e MMLU-Pro, variando sistematicamente o formato dos rótulos das opções (alfabético, numérico, romano) enquanto mantemos seu significado idêntico sob quatro paradigmas, a saber: (1) Com instruções explícitas, mudanças nos rótulos causam grandes variações de desempenho (por exemplo, -30,45% para rótulos romanos vs. numéricos), revelando um viés de formato de instrução. (2) Sem instruções, o desempenho cai ainda mais (até -10,84%) e a sensibilidade aos rótulos se intensifica, destacando o papel da orientação explícita. (3) Quando o conteúdo das opções é removido, os modelos falham em superar baselines de escolha aleatória, exceto com rótulos numéricos, sugerindo uma adesão fraca a diretivas atômicas. (4) Exemplos de três tentativas não geram ganhos significativos em robustez ou fidelidade, e análises de geração mostram erros persistentes nos rótulos, especialmente para formatos não numéricos. Em diferentes tamanhos de modelos, LLMs maiores alcançam maior precisão, mas permanecem inconsistentes na adesão às instruções. Esses resultados expõem as insuficiências dos paradigmas atuais de ajuste por instrução e destacam a necessidade de métodos de avaliação e estratégias de treinamento que visem explicitamente o seguimento de instruções atômicas.

English

Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot reasoning, yet their ability to execute simple, self-contained instructions remains underexplored, despite this being foundational to complex instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro benchmarks, by systematically varying the format of option labels (alphabetic, numeric, Roman) while keeping their meaning identical under four paradigms, namely: (1) With explicit instructions, label changes cause large performance shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format bias. (2) Without instructions, performance drops further (up to -10.84\%) and label sensitivity intensifies, underscoring the role of explicit guidance. (3) When option contents are removed, models fail random-choice baselines except with numeric labels, suggesting weak adherence to atomic directives. (4) Three-shot exemplars yield no significant gains in robustness or fidelity, and generation analyses show persistent label errors, especially for non-numeric formats. Across model sizes, larger LLMs achieve higher accuracy but remain inconsistent in instruction adherence. These results expose the insufficiencies of current instruction-tuning paradigms and highlight the need for evaluation methods and training strategies that explicitly target atomic instruction-following.

A Lacuna das Instruções Atômicas: Modelos de Linguagem Ajustados por Instrução Têm Dificuldade com Diretivas Simples e Autocontidas

The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives

Resumo

Support