Les contraintes de brièveté inversent les hiérarchies de performance dans les modèles de langage

Résumé

Les protocoles d'évaluation standard révèlent un phénomène contre-intuitif : sur 7,7 % des problèmes de référence couvrant cinq jeux de données, les grands modèles linguistiques obtiennent des performances inférieures de 28,4 points de pourcentage à celles des modèles plus petits, malgré des paramètres 10 à 100 fois plus nombreux. Par une évaluation systématique de 31 modèles (0,5 à 405 milliards de paramètres) sur 1 485 problèmes, nous identifions le mécanisme sous-jacent comme une verbosité spontanée dépendante de l'échelle, qui introduit des erreurs par surenchère explicative. Des expériences d'intervention causale démontrent que cela relève d'une conception de prompt corrigeable plutôt que de limitations fondamentales des capacités. Contraindre les grands modèles à produire des réponses concises améliore la précision de 26 points de pourcentage et réduit les écarts de performance jusqu'aux deux tiers. Plus crucialement, les contraintes de brièveté inversent complètement les hiérarchies de performance sur les benchmarks de raisonnement mathématique et de connaissances scientifiques, les grands modèles obtenant des avantages de 7,7 à 15,9 points de pourcentage sur les petits modèles – des inversions directes des écarts initiaux. Ces renversements prouvent que les grands modèles possèdent des capacités latentes supérieures que l'invitation universelle masque. Nous validons ces résultats par trois tests de contamination indépendants et démontrons que l'échelle inverse opère continuellement sur l'ensemble du spectre paramétrique, avec des échelles optimales spécifiques aux jeux de données variant de 0,5 à 3,0 milliards de paramètres. Nos résultats établissent que maximiser les performances des grands modèles nécessite une ingénierie de prompt adaptée à l'échelle plutôt que des protocoles d'évaluation universels, avec des implications immédiates pour le déploiement : l'adaptation des prompts améliore simultanément la précision et réduit les coûts computationnels.

English

Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.

Les contraintes de brièveté inversent les hiérarchies de performance dans les modèles de langage

Brevity Constraints Reverse Performance Hierarchies in Language Models

Résumé

Support