HLE-Verified: 人類最後の試験に対する体系的な検証と構造化された改訂
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
February 15, 2026
著者: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI
要旨
Humanity's Last Exam(HLE)は、挑戦的なマルチドメイン問題に対するフロンティア大規模言語モデルの評価ベンチマークとして広く利用されている。しかし、コミュニティ主導の分析により、HLEには無視できない数のノイズを含む項目が存在し、評価結果にバイアスを生じさせ、モデル間比較を歪める可能性が指摘されている。この課題に対処するため、我々は透明性のある検証プロトコルと詳細な誤り分類体系を備えた、検証済み修正版のHLE-Verifiedを提案する。本構築は、認証済みベンチマークを産出する2段階の検証・修正ワークフローに従う。第I段階では、各項目がドメイン専門家によるレビューとモデルベースのクロスチェックを通じて問題文と最終解答の二値検証を受け、641の検証済み項目が得られる。第II段階では、修正可能な欠陥項目は、独立した専門家による二重修正、モデル支援監査、最終裁定を経て、原評価意図を保持する厳格な制約下で修正され、1,170の修正認証済み項目が生成される。残る689項目は、不確実性の源泉と専門性タグを明示した文書化不確実集合として公開し、将来の改善に資する。7つの最先端言語モデルをHLEとHLE-Verifiedで評価した結果、HLE-Verifiedでは平均絶対精度が7~10ポイント向上した。特に原問題文や参考解答に誤りがある項目では30~40ポイントの大幅な改善が見られた。分析により、モデルの信頼度と問題文・参考解答の誤り存在との強い相関が確認され、本修正の有効性が支持される。総じてHLE-Verifiedは、注釈ノイズの低減とモデル能力のより忠実な測定を実現し、HLE形式評価の質を向上させる。データはhttps://github.com/SKYLENAGE-AI/HLE-Verified で公開されている。
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified