ChatPaper.aiChatPaper

Los Puntos de Referencia se Saturan Cuando el Modelo Supera en Inteligencia al Evaluador

Benchmarks Saturate When The Model Gets Smarter Than The Judge

January 27, 2026
Autores: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis
cs.AI

Resumen

Los puntos de referencia son herramientas importantes para rastrear el progreso en el desarrollo de Modelos de Lenguaje a Gran Escala (LLMs), sin embargo, las imprecisiones en los conjuntos de datos y los métodos de evaluación socavan constantemente su eficacia. Aquí presentamos Omni-MATH-2, una versión revisada manualmente del conjunto de datos Omni-MATH que comprende un subconjunto limpio de respuestas exactas (n=4181) y un subconjunto etiquetado y no estándar (n=247). Cada problema fue auditado para garantizar su capacidad de compilación en LaTeX, su solubilidad y verificabilidad, lo que implicó añadir figuras o información faltante, etiquetar problemas que requieren una demostración, estimación o imagen, y eliminar información superflua. Este proceso reduce significativamente el ruido inducido por el conjunto de datos, proporcionando así una evaluación más precisa del rendimiento del modelo. El conjunto de datos anotado también nos permite evaluar el ruido inducido por el evaluador al comparar GPT-5 mini con el Omni-Judge original, revelando discrepancias sustanciales entre los evaluadores tanto en el subconjunto de problemas limpios como en el etiquetado. Las anotaciones de expertos revelan que Omni-Judge está equivocado en el 96.4% de los desacuerdos entre evaluadores, lo que indica su incapacidad para diferenciar las habilidades de los modelos, incluso mucho antes de que se alcance la saturación del punto de referencia. A medida que los problemas se vuelven más desafiantes, encontramos que evaluadores cada vez más competentes se vuelven esenciales para evitar que los errores del evaluador enmascaren las diferencias genuinas entre modelos. Finalmente, ningún evaluador identifica los modos de fallo presentes para el subconjunto de problemas etiquetados, lo que demuestra que tanto la calidad del conjunto de datos como la fiabilidad del evaluador son críticas para desarrollar puntos de referencia precisos del rendimiento de los modelos.
English
Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.
PDF12January 29, 2026