Бенчмарки насыщаются, когда модель становится умнее оценщика
Benchmarks Saturate When The Model Gets Smarter Than The Judge
January 27, 2026
Авторы: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis
cs.AI
Аннотация
Бенчмарки являются важными инструментами для отслеживания прогресса в разработке больших языковых моделей (LLM), однако неточности в наборах данных и методах оценки постоянно подрывают их эффективность. Мы представляем Omni-MATH-2, вручную пересмотренную версию набора данных Omni-MATH, состоящую из чистого подмножества с точными ответами (n=4181) и размеченного подмножества с нестандартными задачами (n=247). Каждая задача была проверена для обеспечения компилируемости в LaTeX, решаемости и проверяемости, что включало добавление отсутствующих рисунков или информации, маркировку задач, требующих доказательства, оценки или изображения, и удаление лишних элементов. Этот процесс значительно снижает шум, вызванный особенностями набора данных, обеспечивая тем более точную оценку производительности модели. Аннотированный набор данных также позволяет нам оценить шум, вносимый системой оценивания, путем сравнения GPT-5 mini с оригинальным Omni-Judge, выявляя существенные расхождения между системами оценивания как на чистом, так и на размеченном подмножествах задач. Экспертные аннотации показывают, что Omni-Judge ошибается в 96,4% случаев расхождений в оценках, что указывает на его неспособность различать возможности моделей, даже задолго до насыщения бенчмарка. По мере усложнения задач мы выясняем, что все более компетентные системы оценивания становятся необходимыми, чтобы предотвратить маскировку реальных различий между моделями ошибками оценщика. Наконец, ни одна из систем оценивания не идентифицирует текущие режимы сбоев для подмножества размеченных задач, что демонстрирует критическую важность как качества набора данных, так и надежности системы оценивания для создания точных бенчмарков производительности моделей.
English
Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.