HLE-Verified: 인류 최종 시험의 체계적 검증 및 구조화된 개정
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
February 15, 2026
저자: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI
초록
HLE(Humanity's Last Exam)는 까다로운 다분야 질문에 대한 최첨단 대규모 언어 모델 평가를 위해 널리 사용되는 벤치마크가 되었습니다. 그러나 커뮤니티 주도 분석을 통해 HLE가 상당한 수의 노이즈 항목을 포함하고 있어 평가 결과를 편향시키고 모델 간 비교를 왜곡할 수 있다는 우려가 제기되었습니다. 이러한 문제를 해결하기 위해 우리는 투명한 검증 프로토콜과 세분화된 오류 분류 체계를 갖춘 검증 및 수정 버전인 HLE-Verified를 소개합니다. 우리의 구축 방법론은 인증된 벤치마크를 산출하는 2단계 검증-수정 워크플로우를 따릅니다. 1단계에서는 각 항목이 분야 전문가 검토와 모델 기반 교차 검증을 통해 문제와 정답에 대한 이진 검증을 거쳐 641개의 검증된 항목을 확보합니다. 2단계에서는 결함이 있지만 수정 가능한 항목들을 독립적인 전문가 이중 수정, 모델 지원 감사, 최종 판정을 통해 원래 평가 의도를 보존하는 엄격한 제약 하에 수정하여 1,170개의 수정 및 인증 항목을 생성합니다. 나머지 689개 항목은 명시적 불확실성 원인과 전문성 태그가 포함된 문서화된 불확실 집합으로 공개되어 향후 개선을 위해 활용될 수 있습니다. 우리는 7개의 최신 언어 모델을 HLE와 HLE-Verified에서 평가했을 때, HLE-Verified에서 평균 절대 정확도가 7-10% 포인트 향상되는 것을 관찰했습니다. 이 향상은 원래 문제 설명이나 참조 정답에 오류가 있는 항목에서 특히 두드러져 30-40% 포인트의 성능 향상을 보였습니다. 우리의 분석은 추가적으로 모델 신뢰도와 문제 설명 또는 참조 정답의 오류 존재 사이에 강한 연관성이 있음을 밝혀내어 우리의 수정 작업의 효과를 입증했습니다. 전반적으로 HLE-Verified는 주석 노이즈를 줄이고 모델 능력을 더 정확하게 측정할 수 있도록 함으로써 HLE 스타일 평가의 신뢰성을 향상시킵니다. 데이터는 https://github.com/SKYLENAGE-AI/HLE-Verified 에서 이용 가능합니다.
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified