ChatPaper.aiChatPaper

HLE-Verificado: Uma Verificação Sistemática e Revisão Estruturada do Exame Final da Humanidade

HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

February 15, 2026
Autores: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI

Resumo

O Exame Final da Humanidade (HLE) tornou-se um benchmark amplamente utilizado para avaliar modelos de linguagem de última geração em questões complexas e multidomínio. No entanto, análises conduzidas pela comunidade levantaram preocupações de que o HLE contém um número não trivial de itens ruidosos, o que pode enviesar os resultados da avaliação e distorcer comparações entre modelos. Para enfrentar este desafio, introduzimos o HLE-Verified, uma versão verificada e revisada do HLE com um protocolo de verificação transparente e uma taxonomia de erros de granularidade fina. A nossa construção segue um fluxo de trabalho de validação e reparação em duas fases, resultando num benchmark certificado. Na Fase I, cada item passa por uma validação binária do problema e da resposta final através de revisão por especialistas de domínio e verificações cruzadas baseadas em modelos, resultando em 641 itens verificados. Na Fase II, itens com defeito mas reparáveis são revisados sob restrições rigorosas que preservam a intenção avaliativa original, através de reparações duplas independentes por especialistas, auditoria assistida por modelos e adjudicação final, resultando em 1.170 itens revistos e certificados. Os restantes 689 itens são disponibilizados como um conjunto incerto documentado, com fontes de incerteza explícitas e etiquetas de especialidade para refinamento futuro. Avaliámos sete modelos de linguagem state-of-the-art no HLE e no HLE-Verified, observando um ganho médio absoluto de precisão de 7 a 10 pontos percentuais no HLE-Verified. A melhoria é particularmente pronunciada nos itens em que o enunciado do problema original e/ou a resposta de referência são erróneos, com ganhos de 30 a 40 pontos percentuais. As nossas análises revelam ainda uma forte associação entre a confiança do modelo e a presença de erros no enunciado do problema ou na resposta de referência, apoiando a eficácia das nossas revisões. Globalmente, o HLE-Verified melhora as avaliações do estilo HLE, reduzindo o ruído de anotação e permitindo uma medição mais fiel das capacidades dos modelos. Os dados estão disponíveis em: https://github.com/SKYLENAGE-AI/HLE-Verified
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified
PDF103March 25, 2026