ChatPaper.aiChatPaper

Cuando los puntos de referencia envejecen: Desalineación temporal a través de la evaluación de factualidad en modelos de lenguaje de gran escala

When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

October 8, 2025
Autores: Xunyi Jiang, Dingyi Chang, Julian McAuley, Xin Xu
cs.AI

Resumen

La rápida evolución de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y del mundo real ha superado la naturaleza estática de los puntos de referencia de evaluación ampliamente utilizados, lo que ha generado preocupaciones sobre su fiabilidad para evaluar la factualidad de los LLMs. Aunque una cantidad considerable de trabajos sigue dependiendo de los puntos de referencia populares pero antiguos, su desalineación temporal con los hechos del mundo real y los LLMs modernos, así como sus efectos en la evaluación de la factualidad de los LLMs, siguen siendo poco explorados. Por lo tanto, en este trabajo, presentamos una investigación sistemática de este problema mediante el examen de cinco puntos de referencia de factualidad populares y ocho LLMs lanzados en diferentes años. Se ha diseñado una canalización actualizada para la recuperación de hechos y tres métricas para cuantificar el envejecimiento de los puntos de referencia y su impacto en la evaluación de la factualidad de los LLMs. Los resultados experimentales y el análisis ilustran que una porción considerable de las muestras en los puntos de referencia de factualidad ampliamente utilizados están desactualizadas, lo que conduce a evaluaciones poco fiables de la factualidad de los LLMs. Esperamos que nuestro trabajo pueda proporcionar un banco de pruebas para evaluar la fiabilidad de un punto de referencia en la evaluación de la factualidad de los LLMs e inspire más investigaciones sobre el problema del envejecimiento de los puntos de referencia. Los códigos están disponibles en https://github.com/JiangXunyi/BenchAge.
English
The rapid evolution of large language models (LLMs) and the real world has outpaced the static nature of widely used evaluation benchmarks, raising concerns about their reliability for evaluating LLM factuality. While substantial works continue to rely on the popular but old benchmarks, their temporal misalignment with real-world facts and modern LLMs, and their effects on LLM factuality evaluation remain underexplored. Therefore, in this work, we present a systematic investigation of this issue by examining five popular factuality benchmarks and eight LLMs released across different years. An up-to-date fact retrieval pipeline and three metrics are tailored to quantify benchmark aging and its impact on LLM factuality evaluation. Experimental results and analysis illustrate that a considerable portion of samples in the widely used factuality benchmarks are outdated, leading to unreliable assessments of LLM factuality. We hope our work can provide a testbed to assess the reliability of a benchmark for LLM factuality evaluation and inspire more research on the benchmark aging issue. Codes are available in https://github.com/JiangXunyi/BenchAge.
PDF132October 9, 2025