I vincoli di brevità invertono le gerarchie prestazionali nei modelli linguistici

Abstract

I protocolli di valutazione standard rivelano un fenomeno controintuitivo: sul 7,7% dei problemi di benchmark che coprono cinque dataset, i modelli linguistici più grandi ottengono prestazioni inferiori a quelli più piccoli di 28,4 punti percentuali, nonostante abbiano da 10 a 100 volte più parametri. Attraverso una valutazione sistematica di 31 modelli (da 0,5 a 405 miliardi di parametri) su 1.485 problemi, identifichiamo il meccanismo in una verbosità spontanea dipendente dalla scala, che introduce errori attraverso un'eccessiva elaborazione. Esperimenti di intervento causale dimostrano che ciò riflette un problema correggibile nella progettazione dei prompt, piuttosto che limitazioni fondamentali delle capacità. Vincolare i modelli grandi a produrre risposte brevi migliora l'accuratezza di 26 punti percentuali e riduce i divari prestazionali fino a due terzi. Ancora più cruciale, i vincoli di brevità capovolgono completamente le gerarchie prestazionali sui benchmark di ragionamento matematico e conoscenza scientifica, con i modelli grandi che ottengono vantaggi dal 7,7 al 15,9 punti percentuali rispetto a quelli piccoli – inversioni dirette dei divari originali. Questi ribaltamenti provano che i modelli grandi possiedono capacità latenti superiori che i prompt universali mascherano. Convalidiamo i risultati attraverso tre test indipendenti di contaminazione e dimostriamo che la scala inversa opera in modo continuo sull'intero spettro parametrico, con scale ottimali specifiche per dataset che vanno da 0,5 a 3,0 miliardi di parametri. I nostri risultati stabiliscono che massimizzare le prestazioni dei modelli grandi richiede una progettazione dei prompt consapevole della scala, piuttosto che protocolli di valutazione universali, con immediate implicazioni per il deployment: l'adattamento del prompt migliora simultaneamente l'accuratezza e riduce i costi computazionali.

English

Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.

I vincoli di brevità invertono le gerarchie prestazionali nei modelli linguistici

Brevity Constraints Reverse Performance Hierarchies in Language Models

Abstract

Support