HLE-Verificado: Uma Verificação Sistemática e Revisão Estruturada do Exame Final da Humanidade

Resumo

O Exame Final da Humanidade (HLE) tornou-se um benchmark amplamente utilizado para avaliar modelos de linguagem de última geração em questões complexas e multidomínio. No entanto, análises conduzidas pela comunidade levantaram preocupações de que o HLE contém um número não trivial de itens ruidosos, o que pode enviesar os resultados da avaliação e distorcer comparações entre modelos. Para enfrentar este desafio, introduzimos o HLE-Verified, uma versão verificada e revisada do HLE com um protocolo de verificação transparente e uma taxonomia de erros de granularidade fina. A nossa construção segue um fluxo de trabalho de validação e reparação em duas fases, resultando num benchmark certificado. Na Fase I, cada item passa por uma validação binária do problema e da resposta final através de revisão por especialistas de domínio e verificações cruzadas baseadas em modelos, resultando em 641 itens verificados. Na Fase II, itens com defeito mas reparáveis são revisados sob restrições rigorosas que preservam a intenção avaliativa original, através de reparações duplas independentes por especialistas, auditoria assistida por modelos e adjudicação final, resultando em 1.170 itens revistos e certificados. Os restantes 689 itens são disponibilizados como um conjunto incerto documentado, com fontes de incerteza explícitas e etiquetas de especialidade para refinamento futuro. Avaliámos sete modelos de linguagem state-of-the-art no HLE e no HLE-Verified, observando um ganho médio absoluto de precisão de 7 a 10 pontos percentuais no HLE-Verified. A melhoria é particularmente pronunciada nos itens em que o enunciado do problema original e/ou a resposta de referência são erróneos, com ganhos de 30 a 40 pontos percentuais. As nossas análises revelam ainda uma forte associação entre a confiança do modelo e a presença de erros no enunciado do problema ou na resposta de referência, apoiando a eficácia das nossas revisões. Globalmente, o HLE-Verified melhora as avaliações do estilo HLE, reduzindo o ruído de anotação e permitindo uma medição mais fiel das capacidades dos modelos. Os dados estão disponíveis em: https://github.com/SKYLENAGE-AI/HLE-Verified

English

Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified

HLE-Verificado: Uma Verificação Sistemática e Revisão Estruturada do Exame Final da Humanidade

HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Resumo

Support