벤치마크는 모델이 평가자보다 똑똑해지면 포화 상태에 이릅니다
Benchmarks Saturate When The Model Gets Smarter Than The Judge
January 27, 2026
저자: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis
cs.AI
초록
벤치마크는 대규모 언어 모델(LLM) 개발 과정의 진전을 추적하는 중요한 도구이지만, 데이터셋과 평가 방법의 부정확성은 지속적으로 그 효과성을 훼손하고 있습니다. 본 논문에서는 Omni-MATH 데이터셋의 수동 검수 버전인 Omni-MATH-2를 소개합니다. 이 데이터셋은 정제된 정답 부문(n=4181)과 태그가 지정된 비표준 부문(n=247)으로 구성됩니다. 각 문제는 LaTeX 컴파일 가능성, 해결 가능성, 검증 가능성을 보장하기 위해 감사되었으며, 이 과정에서 누락된 그림이나 정보 추가, 증명/추정/이미지가 필요한 문제 라벨링, 불필요한 요소 제거가 수행되었습니다. 이 과정은 데이터셋으로 인한 노이즈를 상당히 줄여 모델 성능을 더 정밀하게 평가할 수 있게 합니다.
주석이 달린 이 데이터셋을 통해 GPT-5 mini와 기존 Omni-Judge를 비교하여 평가자(Judge)에 의한 노이즈도 평가할 수 있었으며, 정제된 부문과 태그 부문 모두에서 평가자 간 상당한 차이가 발견되었습니다. 전문가 검증 결과, 평가자 간 불일치 사례 중 96.4%에서 Omni-Judge가 오류를 보였는데, 이는 벤치마크가 포화 상태에 도달하기 훨씬 전부터도 Omni-Judge가 모델 간 능력 차이를 구분하지 못함을 시사합니다. 문제가 더 어려워질수록, 평가자 오류가 모델 간 실제 차이를 가리는 것을 방지하기 위해 더욱 정교한 평가자의 필요성이 커집니다. 마지막으로, 두 평가자 모두 태그 부문 문제들의 현재 실패 모드를 식별하지 못했으며, 이는 모델 성능에 대한 정확한 벤치마크 개발에 데이터셋 품질과 평가자 신뢰도가 모두 중요함을 보여줍니다.
English
Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.