ChatPaper.aiChatPaper

HLE-Verifiziert: Eine systematische Verifikation und strukturierte Überarbeitung der letzten Prüfung der Menschheit

HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

February 15, 2026
papers.authors: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI

papers.abstract

Der Humanity's Last Exam (HLE) Benchmark hat sich als weitverbreiteter Maßstab zur Bewertung leistungsstarker Großsprachmodelle anhand anspruchsvoller, multidisziplinärer Fragen etabliert. Gemeinschaftsanalysen haben jedoch Bedenken aufgezeigt, dass HLE eine nicht unerhebliche Anzahl verrauschter Items enthält, was Evaluierungsergebnisse verzerren und Modellvergleiche verfälschen kann. Um diese Herausforderung zu adressieren, stellen wir HLE-Verified vor – eine verifizierte und überarbeitete Version von HLE mit einem transparenten Verifizierungsprotokoll und einer feingranularen Fehlertaxonomie. Unsere Konstruktion folgt einem zweistufigen Validierungs- und Reparatur-Workflow, der zu einem zertifizierten Benchmark führt. In Stufe I durchläuft jedes Item eine binäre Validierung der Problemstellung und Endantwort durch Domain-Expertenreview und modellgestützte Kreuzprüfungen, was zu 641 verifizierten Items führt. In Stufe II werden fehlerhafte aber korrigierbare Items unter strengen Auflagen, die die ursprüngliche Evaluierungsabsicht bewahren, überarbeitet. Dies geschieht durch duale unabhängige Expertenreparaturen, modellgestütztes Auditing und finale Schiedsprüfung, was zu 1.170 revidierten und zertifizierten Items führt. Die verbleibenden 689 Items werden als dokumentierter Unsicherheitssatz mit expliziten Unsicherheitsquellen und Expertentags zur weiteren Verfeinerung veröffentlicht. Wir evaluieren sieben state-of-the-art Sprachmodelle auf HLE und HLE-Verified und beobachten einen durchschnittlichen absoluten Genauigkeitszuwachs von 7–10 Prozentpunkten auf HLE-Verified. Die Verbesserung ist besonders ausgeprägt bei Items mit fehlerhafter ursprünglicher Problemstellung und/oder Referenzantwort, mit Steigerungen von 30–40 Prozentpunkten. Unsere Analysen zeigen weiterhin eine starke Assoziation zwischen Modellkonfidenz und Fehlern in Problemstellung oder Referenzantwort, was die Wirksamkeit unserer Revisionen untermauert. Insgesamt verbessert HLE-Verified HLE-artige Evaluationen, indem Annotation Noise reduziert und eine treuere Messung von Modellfähigkeiten ermöglicht wird. Die Daten sind verfügbar unter: https://github.com/SKYLENAGE-AI/HLE-Verified
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified
PDF11February 19, 2026