HLE-Verificato: Una Verifica Sistematica e una Revisione Strutturata dell'Esame Finale dell'Umanità

Abstract

L'esame finale dell'umanità (HLE) è diventato un punto di riferimento ampiamente utilizzato per valutare i modelli linguistici avanzati su domande complesse e multi-dominio. Tuttavia, analisi condotte dalla comunità hanno sollevato preoccupazioni sul fatto che HLE contenga un numero non trascurabile di elementi rumorosi, che possono distorcere i risultati di valutazione e i confronti tra modelli. Per affrontare questa sfida, presentiamo HLE-Verified, una versione verificata e revisionata di HLE con un protocollo di verifica trasparente e una tassonomia degli errori granulare. La nostra costruzione segue un flusso di lavoro di validazione e riparazione in due fasi, che dà luogo a un benchmark certificato. Nella Fase I, ogni elemento subisce una validazione binaria del problema e della risposta finale attraverso una revisione di esperti di dominio e controlli incrociati basati su modelli, producendo 641 elementi verificati. Nella Fase II, gli elementi imperfetti ma riparabili vengono revisionati con vincoli rigorosi che preservano l'intento valutativo originale, attraverso riparazioni duali e indipendenti di esperti, audit assistiti da modelli e arbitraggio finale, risultando in 1.170 elementi revisionati e certificati. I restanti 689 elementi vengono rilasciati come un insieme incerto documentato, con fonti di incertezza esplicite ed etichette di competenza per futuri affinamenti. Valutiamo sette modelli linguistici all'avanguardia su HLE e HLE-Verified, osservando un guadagno medio assoluto di accuratezza del 7-10 percento su HLE-Verified. Il miglioramento è particolarmente pronunciato sugli elementi in cui l'enunciato del problema originale e/o la risposta di riferimento sono errati, con guadagni del 30-40 percento. Le nostre analisi rivelano inoltre una forte associazione tra la confidenza del modello e la presenza di errori nell'enunciato del problema o nella risposta di riferimento, supportando l'efficacia delle nostre revisioni. Nel complesso, HLE-Verified migliora le valutazioni in stile HLE riducendo il rumore di annotazione e consentendo una misurazione più fedele delle capacità dei modelli. I dati sono disponibili all'indirizzo: https://github.com/SKYLENAGE-AI/HLE-Verified

English

Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified

HLE-Verificato: Una Verifica Sistematica e una Revisione Strutturata dell'Esame Finale dell'Umanità

HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Abstract

Support