ChatPaper.aiChatPaper

ベンチマークは、モデルが評価者よりも賢くなると飽和する

Benchmarks Saturate When The Model Gets Smarter Than The Judge

January 27, 2026
著者: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis
cs.AI

要旨

ベンチマークは大規模言語モデル(LLM)の開発進捗を追跡する重要なツールであるが、データセットと評価手法の不正確さがその有効性を常に損なっている。本論文では、Omni-MATHデータセットを手動で修正したOmni-MATH-2を提示する。これは、精選された厳密解答用サブセット(n=4181)とタグ付けされた非標準サブセット(n=247)で構成される。各問題はLaTeXのコンパイル可能性、解答可能性、検証可能性を確保するため監査され、不足している図や情報の追加、証明・推定・画像を要する問題へのタグ付け、不要な要素の除去が行われた。このプロセスにより、データセット起因のノイズが大幅に削減され、モデル性能のより正確な評価が可能となる。 注釈付きデータセットにより、GPT-5 miniと従来のOmni-Judgeを比較することで、評価器起因のノイズの評価も可能になった。その結果、精選サブセットとタグ付きサブセットの両方において、評価器間に大きな不一致が認められた。専門家による注釈分析によれば、評価器間不一致事例の96.4%においてOmni-Judgeが誤っており、ベンチマークが飽和するはるか以前から、モデル間の能力差を識別できないことが示された。問題が難しくなるにつれ、評価器の誤差がモデル間の真の差異を覆い隠すのを防ぐためには、ますます高精度な評価器が不可欠であることがわかる。最後に、タグ付き問題サブセットにおいて、現在の失敗モードを特定できた評価器は一つもなかった。これは、モデル性能の正確なベンチマークを構築するには、データセットの品質と評価器の信頼性の両方が重要であることを示している。
English
Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.
PDF12January 29, 2026