Kürze-Beschränkungen kehren Leistungshierarchien in Sprachmodellen um

Zusammenfassung

Standardisierte Evaluierungsprotokolle zeigen ein kontraintuitives Phänomen: Bei 7,7 % der Benchmark-Probleme aus fünf Datensätzen schneiden größere Sprachmodelle trotz 10- bis 100-fach mehr Parametern um 28,4 Prozentpunkte schlechter ab als kleinere Modelle. Durch systematische Evaluation von 31 Modellen (0,5–405 Mrd. Parameter) über 1.485 Probleme identifizieren wir als Ursache eine spontane, skalierungsabhängige Redseligkeit, die durch Überausführlichkeit Fehler einfügt. Kausale Interventionsexperimente belegen, dass dies auf korrigierbare Prompt-Gestaltung zurückgeht, nicht auf fundamentale Fähigkeitsdefizite. Die Beschränkung großer Modelle auf kurze Antworten steigert die Genauigkeit um 26 Prozentpunkte und verringert Leistungsunterschiede um bis zu zwei Drittel. Entscheidend ist, dass Kürzebeschränkungen Leistungshierarchien bei mathematischen Reasoning- und Wissenschafts-Benchmarks vollständig umkehren: Große Modelle erzielen 7,7–15,9 Prozentpunkte Vorsprung vor kleinen Modellen – direkte Umkehrungen der ursprünglichen Lücken. Diese Umkehrungen beweisen, dass große Modelle überlegene latente Fähigkeiten besitzen, die universelle Prompting-Maskierung verbirgt. Wir validieren die Ergebnisse durch drei unabhängige Kontaminationstests und zeigen, dass inverses Skalieren kontinuierlich über das gesamte Parameterspektrum wirkt, mit datensatzespezifischen Optimalgrößen von 0,5–3,0 Mrd. Parametern. Unsere Ergebnisse belegen, dass die Maximierung großer Modellleistungen skalensensitive Prompt-Entwicklung erfordert – nicht universelle Evaluierungsprotokolle. Die praktische Konsequenz für den Einsatz ist unmittelbar: Prompt-Anpassung verbessert gleichzeitig Genauigkeit und reduziert Rechenkosten.

English

Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.

Kürze-Beschränkungen kehren Leistungshierarchien in Sprachmodellen um

Brevity Constraints Reverse Performance Hierarchies in Language Models

Zusammenfassung

Support