HLE-Verified: Een Systematische Verificatie en Gestructureerde Herziening van het Laatste Examen van de Mensheid
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
February 15, 2026
Auteurs: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI
Samenvatting
Humanity's Last Exam (HLE) is uitgegroeid tot een veelgebruikte benchmark voor het evalueren van geavanceerde grote taalmodellen op uitdagende, multidisciplinaire vragen. Gemeenschapsanalyses hebben echter zorgen gewekt dat HLE een aanzienlijk aantal onzuivere items bevat, wat evaluatieresultaten kan vertekenen en modelvergelijkingen kan beïnvloeden. Om deze uitdaging aan te pakken, introduceren we HLE-Verified, een geverifieerde en herziene versie van HLE met een transparant verificatieprotocol en een fijnmazige foutentaxonomie. Onze constructie volgt een tweefasen workflow van validatie-en-reparatie, resulterend in een gecertificeerde benchmark. In Fase I ondergaat elk item een binaire validatie van het probleem en het eindantwoord door domeinexpertbeoordeling en modelgebaseerde kruiscontroles, wat 641 geverifieerde items oplevert. In Fase II worden defecte maar repareerbare items herzien onder strikte beperkingen die de oorspronkelijke evaluatiedoelen behouden, via dubbele onafhankelijke expertreparaties, modelondersteunde auditing en finale adjudicatie, resulterend in 1.170 herziene en gecertificeerde items. De overige 689 items worden vrijgegeven als een gedocumenteerde onzekere set met expliciete onzekerheidsbronnen en expertisetags voor toekomstige verfijning. We evalueren zeven state-of-the-art taalmodellen op HLE en HLE-Verified, en observeren een gemiddelde absolute nauwkeurigheidswinst van 7–10 procentpunt op HLE-Verified. De verbetering is vooral uitgesproken bij items waar de oorspronkelijke probleemstelling en/of het referentieantwoord foutief is, met winsten van 30–40 procentpunt. Onze analyses tonen verder een sterke associatie tussen modelvertrouwen en de aanwezigheid van fouten in de probleemstelling of het referentieantwoord, wat de effectiviteit van onze revisies ondersteunt. Over het geheel genomen verbetert HLE-Verified HLE-stijl evaluaties door annotatieruis te verminderen en een betrouwbaardere meting van modelcapaciteiten mogelijk te maken. Data is beschikbaar op: https://github.com/SKYLENAGE-AI/HLE-Verified
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified