Os Benchmarks Saturam Quando o Modelo Fica Mais Inteligente que o Avaliador

Resumo

Os benchmarks são ferramentas importantes para acompanhar o progresso no desenvolvimento de Grandes Modelos de Linguagem (LLMs), no entanto, imprecisões nos conjuntos de dados e métodos de avaliação comprometem consistentemente sua eficácia. Apresentamos aqui o Omni-MATH-2, uma versão revista manualmente do conjunto de dados Omni-MATH, compreendendo um subconjunto limpo de respostas exatas (n=4181) e um subconjunto marcado com problemas não padronizados (n=247). Cada problema foi auditado para garantir compilabilidade em LaTeX, solubilidade e verificabilidade, o que envolveu adicionar figuras ou informações faltantes, rotular problemas que exigem uma prova, estimativa ou imagem, e remover ruídos. Este processo reduz significativamente o ruído induzido pelo conjunto de dados, fornecendo assim uma avaliação mais precisa do desempenho do modelo. O conjunto de dados anotado também nos permite avaliar o ruído induzido pelo avaliador, comparando o GPT-5 mini com o Omni-Judge original, revelando discrepâncias substanciais entre os avaliadores em ambos os subconjuntos de problemas (limpos e marcados). Anotações de especialistas revelam que o Omni-Judge está errado em 96,4% das discordâncias de avaliação, indicando sua incapacidade de diferenciar as habilidades dos modelos, mesmo muito antes da saturação do benchmark ocorrer. À medida que os problemas se tornam mais desafiadores, descobrimos que avaliadores progressivamente mais competentes tornam-se essenciais para evitar que erros de julgamento mascarem diferenças genuínas entre os modelos. Por fim, nenhum dos avaliadores identifica os modos de falha atuais para o subconjunto de problemas marcados, demonstrando que a qualidade do conjunto de dados e a confiabilidade do avaliador são críticas para desenvolver benchmarks precisos do desempenho do modelo.

English

Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset (n{=}4181) and a tagged, non-standard subset (n{=}247). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in 96.4% of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.

Os Benchmarks Saturam Quando o Modelo Fica Mais Inteligente que o Avaliador

Benchmarks Saturate When The Model Gets Smarter Than The Judge

Resumo

Support