HLE-Verified: Систематическая верификация и структурированный пересмотр последнего экзамена человечества
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
February 15, 2026
Авторы: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI
Аннотация
Экзамен последнего рубежа человечества (HLE) стал широко используемым эталоном для оценки передовых больших языковых моделей на сложных, многодоменных вопросах. Однако проведенные сообществом анализы выявили проблему наличия в HLE значительного числа зашумленных элементов, что может искажать результаты оценки и сравнительный анализ моделей. Для решения этой проблемы мы представляем HLE-Verified — верифицированную и пересмотренную версию HLE с прозрачным протоколом проверки и детальной таксономией ошибок. Наша методология построения следует двухэтапному рабочему процессу «валидация-исправление», результатом которого является сертифицированный эталон. На Этапе I каждый элемент проходит бинарную проверку условия задачи и окончательного ответа с помощью экспертной оценки и перекрестных проверок на основе моделей, в результате чего получено 641 верифицированный элемент. На Этапе II дефектные, но исправимые элементы пересматриваются в строгих рамках, сохраняющих исходный замысел оценки, посредством двойного независимого экспертного исправления, аудита с помощью моделей и окончательного арбитража, что дает 1170 исправленных и сертифицированных элементов. Оставшиеся 689 элементов выпускаются в качестве документированного набора с неопределенностью, содержащего явные источники неопределенности и экспертные метки для будущей доработки. Мы оценили семь современных языковых моделей на HLE и HLE-Verified, наблюдая средний абсолютный прирост точности на 7–10 процентных пунктов на HLE-Verified. Улучшение особенно заметно на элементах, где исходная постановка задачи и/или эталонный ответ содержат ошибки, с приростом в 30–40 процентных пунктов. Наш анализ также выявляет сильную связь между уверенностью модели и наличием ошибок в условии задачи или эталонном ответе, что подтверждает эффективность наших исправлений. В целом, HLE-Verified улучшает оценки в стиле HLE за счет снижения аннотационного шума и обеспечивает более достоверное измерение возможностей моделей. Данные доступны по адресу: https://github.com/SKYLENAGE-AI/HLE-Verified
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified