ChatPaper.aiChatPaper

HLE-Verificado: Una Verificación Sistemática y Revisión Estructurada del Examen Final de la Humanidad

HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

February 15, 2026
Autores: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao
cs.AI

Resumen

El Examen Final de la Humanidad (HLE, por sus siglas en inglés) se ha convertido en un punto de referencia ampliamente utilizado para evaluar modelos de lenguaje de última generación en preguntas complejas y multidisciplinares. Sin embargo, análisis liderados por la comunidad han señalado que el HLE contiene un número no despreciable de ítems ruidosos, lo que puede sesgar los resultados de la evaluación y distorsionar las comparaciones entre modelos. Para abordar este desafío, presentamos HLE-Verified, una versión verificada y revisada del HLE que incluye un protocolo de verificación transparente y una taxonomía de errores detallada. Nuestra construcción sigue un flujo de trabajo de validación y reparación en dos etapas, dando como resultado un benchmark certificado. En la Etapa I, cada ítem se somete a una validación binaria del problema y la respuesta final mediante revisión por expertos en el dominio y verificaciones cruzadas basadas en modelos, obteniendo 641 ítems verificados. En la Etapa II, los ítems defectuosos pero reparables se revisan bajo estrictas restricciones que preservan la intención evaluativa original, mediante reparaciones duales e independientes por expertos, auditorías asistidas por modelos y una adjudicación final, lo que da como resultado 1.170 ítems revisados y certificados. Los 689 ítems restantes se publican como un conjunto incierto documentado, con fuentes de incertidumbre explícitas y etiquetas de especialización para futuros refinamientos. Evaluamos siete modelos de lenguaje de vanguardia en HLE y HLE-Verified, observando una ganancia media de precisión absoluta de 7 a 10 puntos porcentuales en HLE-Verified. La mejora es particularmente notable en los ítems donde el enunciado del problema original y/o la respuesta de referencia son erróneos, con ganancias de 30 a 40 puntos porcentuales. Nuestros análisis revelan además una fuerte asociación entre la confianza del modelo y la presencia de errores en el enunciado del problema o la respuesta de referencia, respaldando la efectividad de nuestras revisiones. En general, HLE-Verified mejora las evaluaciones de tipo HLE al reducir el ruido en las anotaciones y permitir una medición más fiel de las capacidades de los modelos. Los datos están disponibles en: https://github.com/SKYLENAGE-AI/HLE-Verified
English
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified
PDF11February 19, 2026