HLE-Verifié : Une vérification systématique et une révision structurée de l'Examen Final de l'Humanité
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
February 15, 2026
papers.authors: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI
papers.abstract
L'examen final de l'humanité (HLE) est devenu un benchmark largement utilisé pour évaluer les grands modèles de langage de pointe sur des questions difficiles et multidomaines. Cependant, des analyses menées par la communauté ont soulevé des préoccupations quant au fait qu'HLE contient un nombre non négligeable d'éléments bruités, ce qui peut biaiser les résultats d'évaluation et fausser les comparaisons entre modèles. Pour relever ce défi, nous présentons HLE-Verified, une version vérifiée et révisée d'HLE avec un protocole de vérification transparent et une taxonomie fine des erreurs. Notre construction suit un processus en deux étapes de validation et de correction aboutissant à un benchmark certifié. À l'Étape I, chaque élément subit une validation binaire du problème et de la réponse finale via un examen par des experts du domaine et des contre-vérifications assistées par modèle, produisant 641 éléments vérifiés. À l'Étape II, les éléments défectueux mais réparables sont révisés sous des contraintes strictes préservant l'intention d'évaluation originale, via des corrections doubles et indépendantes par des experts, un audit assisté par modèle et un arbitrage final, aboutissant à 1 170 éléments révisés et certifiés. Les 689 éléments restants sont publiés sous forme d'un ensemble incertain documenté, avec des sources d'incertitude explicites et des étiquettes d'expertise pour un affinage futur. Nous évaluons sept modèles de langage state-of-the-art sur HLE et HLE-Verified, observant un gain de précision absolu moyen de 7 à 10 points de pourcentage sur HLE-Verified. L'amélioration est particulièrement marquée sur les éléments où l'énoncé du problème original et/ou la réponse de référence sont erronés, avec des gains de 30 à 40 points de pourcentage. Nos analyses révèlent en outre une forte association entre la confiance du modèle et la présence d'erreurs dans l'énoncé du problème ou la réponse de référence, confirmant l'efficacité de nos révisions. Globalement, HLE-Verified améliore les évaluations de type HLE en réduisant le bruit d'annotation et en permettant une mesure plus fidèle des capacités des modèles. Les données sont disponibles à l'adresse : https://github.com/SKYLENAGE-AI/HLE-Verified
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified