言語モデルにおける簡潔性制約がパフォーマンス階層を逆転させる
Brevity Constraints Reverse Performance Hierarchies in Language Models
March 11, 2026
著者: MD Azizul Hakim
cs.AI
要旨
標準的な評価手法により、5つのデータセットにわたるベンチマーク問題の7.7%において、大規模言語モデルが10~100倍のパラメータ数にもかかわらず、小規模モデルより28.4パーセントポイント性能が低下するという逆説的な現象が明らかになった。31のモデル(0.5B~405Bパラメータ)による1,485問題の体系的評価を通じて、このメカニズムを「規模に依存した自発的冗長性」と特定した。これは過剰な詳細化により誤りを生じさせる。因果介入実験により、これは根本的な能力限界ではなく、修正可能なプロンプト設計に起因することが実証された。大規模モデルに簡潔な回答を強制すると、精度が26パーセントポイント向上し、性能差が最大3分の2に縮小した。最も重要なことに、数学的推論と科学知識ベンチマークでは、簡潔性制約が性能階層を完全に逆転させ、大規模モデルが小規模モデルに対し7.7~15.9パーセントポイントの優位性を示した(元の格差の直接的反転)。この逆転は、大規模モデルが普遍的プロンプトでは隠蔽されている優れた潜在能力を有することを証明する。3つの独立した汚染検定で結果を検証し、逆スケーリング現象がパラメータ全域で連続的に作用し、データセット固有の最適規模が0.5B~3.0Bパラメータの範囲に分布することを実証した。大規模モデルの性能最大化には普遍的な評価手法ではなく規模認識型プロンプト設計が必要であることが確定し、実際の展開において即応的な示唆をもたらす:プロンプト適応は精度向上と計算コスト削減を同時に実現する。
English
Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.