Breviteitbeperkingen keren prestatiehiërarchieën in taalmodellen om

Samenvatting

Standaardevaluatieprotocollen onthullen een contra-intuïtief fenomeen: op 7,7% van de benchmarkproblemen uit vijf datasets presteren grotere taalmodellen 28,4 procentpunten slechter dan kleinere modellen, ondanks 10-100x meer parameters. Door systematische evaluatie van 31 modellen (0,5B-405B parameters) over 1.485 problemen identificeren we het mechanisme als spontane schaalspecifieke spraakzaamheid die fouten introduceert door overelaboratie. Causale interventie-experimenten tonen aan dat dit een corrigeerbaar promptontwerp reflecteert, niet fundamentele capaciteitsbeperkingen. Het beperken van grote modellen tot korte antwoorden verbetert de nauwkeurigheid met 26 procentpunten en verkleint prestatiekloven met tot twee derde. Cruciaal is dat beknoptheidsbeperkingen prestatiehiërarchieën volledig omkeren op wiskundige redeneer- en wetenschappelijke kennistests, waarbij grote modellen 7,7-15,9 procentpunt voordeel behalen ten opzichte van kleine modellen – een directe omkering van de oorspronkelijke kloven. Deze omkeringen bewijzen dat grote modellen superieure latente capaciteiten bezitten die universele prompting maskeert. We valideren de bevindingen via drie onafhankelijke contaminatietests en tonen aan dat inverse schaalverandering continu opereert over het volledige parameterspectrum, met datasetspecifieke optimale schalen variërend van 0,5B tot 3,0B parameters. Onze resultaten bevestigen dat het maximaliseren van grote-modelprestaties schaalbewuste promptengineering vereist, niet universele evaluatieprotocollen, met directe implicaties voor implementatie: promptaanpassing verbetert gelijktijdig nauwkeurigheid en verlaagt rekencosten.

English

Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.

Breviteitbeperkingen keren prestatiehiërarchieën in taalmodellen om

Brevity Constraints Reverse Performance Hierarchies in Language Models

Samenvatting

Support