ChatPaper.aiChatPaper

HLE-Verificato: Una Verifica Sistematica e una Revisione Strutturata dell'Esame Finale dell'Umanità

HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

February 15, 2026
Autori: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI

Abstract

L'esame finale dell'umanità (HLE) è diventato un punto di riferimento ampiamente utilizzato per valutare i modelli linguistici avanzati su domande complesse e multi-dominio. Tuttavia, analisi condotte dalla comunità hanno sollevato preoccupazioni sul fatto che HLE contenga un numero non trascurabile di elementi rumorosi, che possono distorcere i risultati di valutazione e i confronti tra modelli. Per affrontare questa sfida, presentiamo HLE-Verified, una versione verificata e revisionata di HLE con un protocollo di verifica trasparente e una tassonomia degli errori granulare. La nostra costruzione segue un flusso di lavoro di validazione e riparazione in due fasi, che dà luogo a un benchmark certificato. Nella Fase I, ogni elemento subisce una validazione binaria del problema e della risposta finale attraverso una revisione di esperti di dominio e controlli incrociati basati su modelli, producendo 641 elementi verificati. Nella Fase II, gli elementi imperfetti ma riparabili vengono revisionati con vincoli rigorosi che preservano l'intento valutativo originale, attraverso riparazioni duali e indipendenti di esperti, audit assistiti da modelli e arbitraggio finale, risultando in 1.170 elementi revisionati e certificati. I restanti 689 elementi vengono rilasciati come un insieme incerto documentato, con fonti di incertezza esplicite ed etichette di competenza per futuri affinamenti. Valutiamo sette modelli linguistici all'avanguardia su HLE e HLE-Verified, osservando un guadagno medio assoluto di accuratezza del 7-10 percento su HLE-Verified. Il miglioramento è particolarmente pronunciato sugli elementi in cui l'enunciato del problema originale e/o la risposta di riferimento sono errati, con guadagni del 30-40 percento. Le nostre analisi rivelano inoltre una forte associazione tra la confidenza del modello e la presenza di errori nell'enunciato del problema o nella risposta di riferimento, supportando l'efficacia delle nostre revisioni. Nel complesso, HLE-Verified migliora le valutazioni in stile HLE riducendo il rumore di annotazione e consentendo una misurazione più fedele delle capacità dei modelli. I dati sono disponibili all'indirizzo: https://github.com/SKYLENAGE-AI/HLE-Verified
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified
PDF103March 25, 2026