Restrições de Brevidade Invertem Hierarquias de Desempenho em Modelos de Linguagem

Resumo

Os protocolos padrão de avaliação revelam um fenômeno contraintuitivo: em 7,7% dos problemas de benchmark abrangendo cinco conjuntos de dados, modelos de linguagem maiores têm desempenho inferior a modelos menores em 28,4 pontos percentuais, apesar de possuírem 10 a 100 vezes mais parâmetros. Através de uma avaliação sistemática de 31 modelos (0,5B a 405B de parâmetros) em 1.485 problemas, identificamos o mecanismo como uma verbosidade espontânea dependente de escala que introduz erros por meio de excesso de elaboração. Experimentos de intervenção causal demonstram que isso reflete um problema corrigível no *design* de *prompts*, e não uma limitação fundamental de capacidade. Restringir modelos grandes a produzir respostas breves melhora a precisão em 26 pontos percentuais e reduz as lacunas de desempenho em até dois terços. Mais criticamente, as restrições de brevidade revertem completamente as hierarquias de desempenho em *benchmarks* de raciocínio matemático e conhecimento científico, com modelos grandes alcançando vantagens de 7,7 a 15,9 pontos percentuais sobre modelos pequenos – inversões diretas das lacunas originais. Essas reversões provam que os modelos grandes possuem capacidades latentes superiores que são mascaradas por *prompts* universais. Validamos os resultados por meio de três testes independentes de contaminação e demonstramos que a escala inversa opera continuamente em todo o espectro de parâmetros, com escalas ótimas específicas para cada conjunto de dados variando de 0,5B a 3,0B de parâmetros. Nossos resultados estabelecem que maximizar o desempenho de modelos grandes requer uma engenharia de *prompts* consciente da escala, e não protocolos de avaliação universais, com implicações imediatas para a implantação: a adaptação de *prompts* melhora simultaneamente a precisão e reduz os custos computacionais.

English

Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.

Restrições de Brevidade Invertem Hierarquias de Desempenho em Modelos de Linguagem

Brevity Constraints Reverse Performance Hierarchies in Language Models

Resumo

Support